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本 书 既 考虑 到 这 样 的 新 发 展 ， 又 注意 到 通俗 易 懂 地 说 明了 
最 优化 的 基本 知识 到 最 新 成 果 的 内 容 . 也 就 是 ， 从 单纯 法 开 
dh, BOESORT 

线性 规划 

网 络 最 优化 

组 合 最 优化 

非 线 性 规划 
的 各 个 领域 中 有 代表 性 的 方法 以 及 最 近 的 话题 这些 话题 里 有 
上 述 内 点 法 ， 也 有 网 络 上 针对 最 小 成 本 流 的 强 凶 项 式 算法 , 针 
对 旅行 商 问题 的 多 面体 方法 ， 非 线性 规划 里 的 逐次 二 次 规划 法 
及 接近 法 等 等 。 另外 ,还 特地 用 了 一 章 解 说 最 近 绰 人 注目 的 神 
经 网 络 上 的 最 优化 方法 . 

最 后 ， 我 们 不 仅 从 教学 观点 上 对 这 些 最 优化 方法 进行 了 理 
RHA, 还 强调 了 它们 作为 实用 工具 在 现实 中 被 广泛 应 用 的 
事实 , 大 多 数 有 代表 性 的 最 优化 算法 已 有 可 以 方便 使 用 的 软件 
包 . 但 是 ， 有 效 利用 这 些 成 果 是 以 有 待 解 决 的 问题 已 被 模型 化 
成 最 优化 间 题 的 形式 为 前 提 的 . 这 一 过 程 未 必 简 单 . 在 收集 客 
疯 数据 的 同时 ， 要求 有 深刻 的 洞察 力 和 综合 能 力 . 运筹 学 兼 蓄 
有 针对 性 的 知识 及 技能 ， 但 本 书 完 全 没 涉及 到 . 仅 于 此 指出 其 
重要 性 ， 想 等 别 的 机 会 详 谈 . 

尽管 仅 启 最 优化 的 方法 不 能 解决 所 有 问题 ,但 是 我 们 认 
为 ,这 方法 对 解决 最 优化 问题 中 可 以 模型 化 的 部 分 是 必 不 可 少 
的 , 今后 也 会 问 续 起 到 问题 解决 方法 的 核心 作用 .在 理解 最 优 
化 方法 方面 本 书 若 能 有 所 贡献 ， 即便 一 点 点 ， 我 们 也 很 高 兴 . 
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中 文 版 前 言 


中 国 和 日 本 的 的 确 确 是 近邻 ， 飞 机 仅 需 两 个 多 小 时 就 可 以 
I. 我们 己 经 有 幸 多 次 访问 过 中 国 . 北京 的 故 言 、 八 达 岭 、 西 
安 的 兵 马 全 曲阜 的 孔 府 等 等 ， 让 我 们 深 深 感受 到 中 国 四 千年 
历史 的 源远流长 . 我 们 记忆 龙 新 并 感到 骄 侈 的 是 ,徒步 登 上 泰 
山 而 不 是 坐 找 车 

然而 ， 和 这 些 文 化 遗产 以 及 美丽 大 自然 比 起 来 ， 中 国 年 青 
人 奋发 图 强 , 刻 营 学 习 的 精神 面貌 给 我 们 留 下 了 更 为 深刻 的 印 
S. 这 本 书 能 译 成 中 文 出 版 ， 那 怕 是 能 满足 一 点 点 这 些 年 青 人 
的 来 知 欲 ， 我 们 也 会 因此 感到 由 束 地 高 兴 

担任 翻译 工作 的 曾 道 智 看 是 位 生气 擂 才 的 后 起 之 秀 , ER 
都 大 学 我 们 研究 室 里 刚 获得 博士 学 位 . 相信 他 一 定 能 够 准确 译 
出 专业 术语 (非常 造 钥 的 是 ,我 们 连 确认 的 中 文 知识 部 没有 ). 


ERRA 
福 岛 雅 夫 
1996 年 4 月 于 京都 大 学 


原著 前 言 


如 何 使 用 计算 机 来 解决 现实 中 各 种 各 样 问题 ?信息 数学 积 
暴 了 这 方面 的 知识 并 不 断 深入 发 展 ， 被 称 为 最 优化 Coptimiza- 
tion) 或 数学 规划 (mathematical programming) 的 领域 讨论 的 是 
为 找 出 对 象 问题 的 最 优 解 决策 略 而 采取 的 模型 化 及 其 方法 . 其 
过 程 是 ， 先 把 待 解 决 问题 用 最 优化 形式 描述 为 在 给 定 的 约 东 条 
件 下 找 出 使 某 个 目标 函数 达 最 大 (小 ) 的 解 ", 然后 再 采用 数学 
上 严密 的 算法 来 求解 . 再 广泛 些 ,这 一 领域 也 被 认为 是 运筹 学 
(OR) 的 一 部 分 ， 

所 谓 问题 解决 方法 ， 除 了 运筹 学 和 数学 规划 之 外 ， 人 们 还 
提出 了 人 工科 能 (A1), RRA., KERL, AERA, PE 
元 ,遗传 算法 等 等 各 种 典型 方法 ， 并 使 它们 实用 化 . 这 些 方法 
各 有 各 的 特征 , 承担 起 解决 问题 某 个 方面 的 任务 ， 但 决 不 否定 
数学 规划 的 作用 . 这 是 因为 把 要 解决 的 问题 描述 成 最 优化 问题 
后 , 没有 其 它 方法 能 像 数学 规划 那样 深刻 解析 对 象 问题 并 给 出 
MER. 

SUBUCS. BERAR REET 1947 年 ， 当 时 CB. 
Dantzig 提出 了 线性 规划 的 基本 算法 一 单纯 形 算法 . 至今 已 有 
近 半 个 世纪 的 历史 . 理论 上 员 已 显 成 熟 ， 但 我 们 也 可 以 说 它 还 
是 个 正在 继续 苗 壮 成 长 的 领域 在 这 个 意义 上 最 近 成 为 热门 话 
题 的 是 始 自 1984 年 N. Karmarkar 发 表 的 内 点 法 ， 这 个 新 方法 
不 仅 促进 了 算法 的 高 速 化 , 还 因为 这 种 想法 本 身 获得 了 美国 的 
专利 ， 成 为 围绕 着 知识 产权 而 展开 的 话题 给 人 们 留 下 了 很 深 
的 印象 ， 经 内 点 法 刺激 的 单纯 形 法 也 取得 了 进步 ,在 实用 上 现 
在 可 以 解 有 自 数 万 到 数 十 万 个 变量 的 线性 规划 问题 


第 0 章 绪论 


最 优化 (optimization) 一 般 是 指 在 某 种 状况 下 作出 最 好 的 决 
策 ， 或 者 是 从 几 个 候选 者 中 选 出 最 好 的 . 这 种 问题 经 常用 下 面 
的 数学 模型 描述 : 


“在 给 定 的 约束 条 件 (constraint) 下 ， 找 出 一 个 决策 
变量 (decision variable) 的 值 ， 使 得 被 称 为 BE frd 
数 {objective function) 的 表达 愿望 尺度 的 函数 达到 最 
小 或 最 大 值 .” 


一 般 说 来 决策 变量 (以 下 简称 为 变量 ) ELET, WEA n H 
向 量 = = (zl,…-,zn) 来 表示 ， 把 河 题 写成 下 式 D. 


目标 函数 : f(z) 一 最 小 
HRR: 了 ES 


a) 


在 此 , 目标 函数 f 是 定义 在 包含 5 KHERA EO xS 
进一步 ，5 是 该 问题 变量 = 的 可 取 值 之 集合 ， 称 为 问题 (1) 的 
可 行 域 (feasible region). 一 般 来 说 ,可 行 域 5 用 与 变量 x* 相关 
的 等 式 及 不 等 式 表 示 , 但 也 有 很 多 情况 下 包含 有 难以 用 数学 式 
子 表达 的 组 合 条 件 . 


1) 目标 通 数 最 大 化 等 价 于 把 它 乘 以 -1 后 最 小 化 ， 因 此 本 书 在 汇 自 特地 指 贞 
他 情况 下 仅 处 理 最 小 化 问题 - 


满足 约束 条 件 ze 5 的 z 称 为 问题 (1) 的 可 行 解 (feasible 
solution), 满足 


FE) < f(z) (ze S) (2) 


的 可 行 解 z*e S 称 为 问题 (1) 的 最 优 解 (optimal solution). 5j 
外 .在 包含 可 行 解 z* e 5 的 适当 邻 域 U(z*) 里 ， 当 


Fa) € f(z) (e SNU) (3) 


成 立时 ,， 称 z* 为 间 题 (1) HU 局 部 是 优 解 (local optimal solution). 
不 少 问题 的 目标 函数 或 约 东 条 件 很 复杂 , 要 找 出 在 全 可 行 域 中 
使 目标 函数 达 最 小 的 解 非常 困难 ， 这 时 面临 的 目标 就 成 为 求 出 
局 部 最 优 解 . 为 区 别 (2) 的 最 优 解 与 局 部 最 优 解 ， 有 时 特地 称 
其 为 全 局 最 优 解 (global optimal solution). 

根据 变量 ,目标 沙 数 ,约束 条 件 的 类 型 ， 最 优化 问题 (1) 
可 分 成 几 类 . 首先 ,根据 变量 ， 大 致 分 为 变量 取 连 续 实数 的 连 
续 最 优化 问题 (continuous optimization problem) 以 及 取 整 数 或 
者 类 似 0, 1 的 离散 值 的 离散 最 优化 问题 (discrete optimization 
problem). 后 者 因 多 用 组 合 性 质 来 表达 ， 也 称 为 组 合 优化 问题 
(combinatorial optimization problem). 

连续 最 优化 问题 分 为 目标 函数 是 线性 ,约束 条 件 是 线性 
方程 式 或 (和 ) 不 等 式 组 时 的 线性 规划 问题 (linear programming 
problem) 及 目标 函数 和 约束 条 件 未 必 是 线性 的 非 线性 规划 问题 
(noniinear programming problem). 后 者 可 进一步 分 为 目标 函数 是 
二 次 , 约束 条 件 是 线性 的 二 次 规划 问题 (quadratic programming 
problem), 目标 函数 是 是 函数 ,约束 条 件 是 凸 集 合 DO 的 凸 规划 
间 题 (convex programming problem) 等 ， 凸 规划 问题 有 局 部 最 优 


1) e Ris E XE EIER AL 


解 必定 是 全 局 最 优 解 的 性 质 ,线性 规划 问题 是 凸 规划 问题 的 特 
殊 情 形 . 

离散 最 优化 问题 有 各 式 各 样 的 问题 类 ， 把 它们 具体 特征 化 
的 主要 原因 在 于 其 约束 条 件 的 结构 . 一 般 说 来 有 几 个 变量 被 
限制 取 整 数 时 的 问题 称 为 整数 规划 问题 (integer programming 
problem), 特别 是 ， 当 变量 的 值 是 0 或 1 的 时 候 称 为 0-1 LI 
题 (0-1 programming problem). 另外 ， 约 束 条 件 由 关联 量 或 网 络 
给 出 的 问题 也 很 多 . 讽 如， 处理 网 络 的 流 的 各 种 网 络 流 问题 
(network flow problem) 及 成 为 困难 组 合 最 优化 问题 典型 的 旅行 
商 问题 (traveling salesman problem). 

上 述 线性 规划 问题 ， 非 线性 规划 问题 ， 整 数 规划 问题 等 统 
称 为 数学 规划 问题 (mathematical programming problem). 


本 书 论 及 各 种 最 优化 问题 ,着 重 于 解说 它们 的 解法 (算法 ). 
虽然 各 读本 书 是 以 大 学 一 二 年 级 程度 的 数学 知识 为 前 担 ， 但 是 
书 末 的 附录 综述 了 常用 的 有 关 线 性 代数 ， 多 变量 函数 ， 图 论 及 
移 络 的 基础 知识 ， 请 参考 . 


第 1 章 线性 规划 : 单纯 形 法 


本 章 介 绍 解 线性 规划 问题 的 有 代表 性 的 方法 一 单纯 形 法 
之 基本 思路 ， 有 好 几 种 执行 单纯 形 法 的 计算 方法 ， 这 里 特别 介 
绍 被 称 为 艇 正 单纯 形 法 的 方法 . 另外 ， 也 讲解 线性 规划 里 的 对 
偶 定理 及 灵敏 度 分 析 


1.1 线性 规划 问题 


目标 函数 为 一 次 画 数 ， 约 东 条 件 为 一 次 等 式 或 不 等 式 所 表 
示 的 问题 称 为 线性 规划 问题 (linear programming problem, LP 
problem). 讨论 线性 规划 问题 的 时 候 , 为 方便 ， 考 虑 如 下 称 为 标 
准 形 (standard form) 的 特殊 形式 问题 . 


目标 函数 :crz 一 } 最 小 
约束 条 件 : At =b, 220 


(1.1) 


这 里 ,变量 > 为 ” 维 实 向 量 ， 4 为 mxn ABER, B0 6 分 
PA m 维 及 nr 维 常 数 向 量 ， 了 为 转移 记号 .以 下 所 有 的 向 量 
全 为 列 向 量 , 同 维 的 两 个 向 量 v.v 所 对 应 的 各 分 量 当 zx: > yo HE 
立时 ， 记 为 >¥. 

也 应 用 蛙 出 现 各 种 线性 规划 问题 它们 都 可 以 变换 
CRERUEGEU Q2 JEAN, gi WE cT FIERA C Fn (oc) o 的 域 小 化 等 


价 ， 不 等 式 约束 条 件 


在 引进 新 变量 vi 后 ， 分 别 转化 为 等 式 约束 条 件 和 变量 非 灸 条 
件 


Yn +y = bin w20 (1.2) 


j=1 


DL 


agz;- yi = bs ww 290 (1.3) 


另外 ， 不 受 符号 约束 的 变量 zj 可 像 2; = e-a 一 样 表示 为 两 
个 非 负 变量 r, > 0,z > 0 之 差 .， 因此 ， 通 过 适当 组 合 以 上 步 
荡 ， 可 把 任意 问题 变换 为 与 其 等 价 的 标准 形 . 一 般 把 式 (1.2) 
LOEPE 称 为 松弛 变量 (slack variable), R (0.3) 的 入 Mos 剩余 变量 


(surplus variable). 


1.2 基 解 和 最 优 解 


为 讨论 方便 , 以 下 假定 问题 (1.1) 的 变量 个 数 严 比 约束 条 件 
(变量 非 负 条 件 除 外 ) 个 数 m 大 ,约束 条 件 的 系数 和 矩阵 4 满足 
rank A =m). 前面 的 假定 在 利用 松弛 变量 和 剩余 变量 变换 后 
的 标准 形 里 通常 成 立 ， 后 面 的 假定 是 说 在 约束 条 件 里 没有 (R 
能 通过 组 合 其 它 几 个 条 做 而 得 到 的 ) 多 余 条 件 式 子 . 

1) 矩阵 A 的 列 向 量 中 线性 无 关 者 的 最 大 个 数 称 为 4 P (rank), 记 为 rankA 
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考虑 问题 (1.1) 的 等 式 约束 条 件 
Az -b (1.4) 


XH, PEE m BS n EE x; G = L2, n) 分 成 m 个 和 n 一 m 
个 两 组 ， 把 它们 以 适当 顺序 排列 后 分 别 记 为 xs,z*w- 进一步 ， 
对 应 向 量 z HA, Em xn SEDE A 也 分 成 可 xx 和 mn 矩阵 和 
mxX(n-m) 矩阵 前 面 的 矩阵 记 为 B, 后 面 的 记 为 NU. DAT. 
把 这 种 向 量 和 符 阵 划分 表示 为 = [xg ew), 4 = BB. NT. 

对 应 于 某 个 划分 = [ra,zwj A= [B,N], R (1.4) 可 写 为 


Brp+ Nin =b, (1.5) 


因此 ， 如 果 B 为 非 奇异 矩阵 ， 通 过 令 zw = 0 r5 的 值 下 由 式 
(1.5) 唯一 确定 为 zs = Bb. 这 样 得 到 的 


zB B-1b 
AME) ~ 


是 方程 式 (14) 的 一 个 特殊 解 ， 称 为 问题 (1.1) 的 ER (basic 
solution). 特别 是 ， 在 式 (L6) 里 zB — -5 之 0 成 立时 ,该 基 解 
满足 问题 (1.1) 的 约束 条 件 ， 因 此 称 为 基 可 行 解 (basic feasible 
solution). 一 般 来 说 ， 问 题 (1.1) 的 可 行 解 有 无 数 个 ， 而 基 可 行 
解 公 有 有 限 个 3. 对 应 于 式 (1.6) ER, B A 基 矩 阵 (basic 
matrix), 向 量 za 的 各 分 量 称 为 基 变量 (basic variable), N 称 为 
本 在 mn 二 mm) 时 ,如果 za = 
(z2.25,2:).2w = (23,84) M] B = (am. as,e1), N = (as, 04). 这 里 ， ai X 
和 矩阵 4 的 第 i 列 向 量 - 


2) 因为 可 能 的 划分 scie aE (| 7 )- c 种 ， 基 可 行 解 
m ! 
的 个 数 不 可 能 超过 这 个 数 . 
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非 基 矩阵 (nonbasic matrix), 向 量 zw 的 各 分 量 称 为 非 基 变量 


(nonbasic variable). 
作为 具体 的 例子 ， 考 虑 如 下 的 约束 条 件 . 
2z14- 252 €6 
Tı +222 X 6 (1-7) 
2120, z220 
因 它 不 是 标准 形 ， 用 前 节 所 述 的 方法 变换 成 如 下 的 标准 形 . 
2x1 + £2 + 23 — 6 
zi 2r + r4 一 6 (1.8) 
zi>0 (i=1,2,3,4) 
RE, c. za. 是 松弛 变量 . R (1.8) 里 有 下 面 (a)-(f) 的 六 个 基 
解 . 这 些 基 解 里 面 , 除 (b) 和 (e) 以 外 , 其 余 四 个 为 基 可 行 解 . 


aani JEE] 


afale] 
erp d EE] 
ubl 
eil ppt] 
iu 


Hpg 
EN 一 一 
E21 0 

R (18) 里 变量 的 维 数 是 4, 无 法 直接 用 图 表示 ,但 是 与 式 
(1.8) 等 价 的 原 不 等 式 组 {1.7) 在 (21,82) 平面 上 可 表示 为 图 1 
图 1.1 中 ,注意 包括 纵 轴 和 横 轴 四 条 直线 分 别 表 示 2; — 0 (i = 
1,2,3,4). FÆ, 这 四 条 直线 中 每 两 条 之 交点 分 别 对 应 于 上 述 六 
个 基 解 ， 特 别 是 ， 表 示 可 行 域 四 边 形 的 顶点 成 为 基 可 行 解 . 该 
例 中 可 行 域 为 四 边 形 , 一般 情况 下 ， 线 性 规划 问题 可 行 域 为 n 
维 欧 几 里 得 空间 R^ 的 凸 多 面体 ， 基 可 行 解 对 应 于 该 凸 多 面体 
BEA D. 


1) 空间 R^ 里 , 通过 适当 移动 (n 一 1) 维 子 空间 得 到 的 集合 称 为 起 平面 (hyper 
plane). 三 维 空间 RR? 内 的 平面 以 及 二 维 空间 R? 内 的 直线 都 是 (各自 空 间 里 的 ) 
超 平面 . 超 平面 可 用 某 个 向 量 nO 及 实数 表示 成 {ze R"iaTr 一 甘 , 进 一 
m. 一 个 超 平面 决定 两 个 半空 间 (s € A^ [aTr 25) {2 € R"]aTz <b}. JU 
个 半空 间 的 共同 部 分 称 为 凸 多 面体 (polyhedral convex set). 
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Bii X wot 


目标 函数 cr id PAS 
LELES RN LEZE 


NS 
NN 


ERE 


D 


{a) 有 一 个 最 优 解 时 Cb) 有 多 个 { 无 良 个 ) 最 优 解 时 


LL II Gu 
nA ILS 


O 不 存在 最 优 甫 时 
图 1.2 线性 规划 问题 的 最 优 解 


在 空间 R" 中 作为 月 标 函 数 的 一 次 函数 crz 的 等 高 线 是 平 
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行 超 平面 ， 因 此 线性 规划 问题 的 最 优 解 的 集合 ， 要 么 像 图 1.2 
(a) 一 样 由 一 个 顶点 构成 , 要 么 像 图 1.2 (b) 一 样 由 可 行 域 (hE 
面体 ) 的 一 个 面 构成 ， 或 者 像 图 1.2 (0) 那样 可 行 域内 目标 函数 
值 可 以 任意 小 - 特别 是 ， 当 问题 有 最 优 解 时 ， 可 行 域 的 顶点 之 
中 一 定 存在 有 成 为 最 优 解 者 . 把 以 上 各 项 综合 一 下 就 得 到 下 面 
的 定理 . 

定理 1.1 (线性 规划 问题 的 最 优 解 的 特征 ) ”线性 规划 问题 
车 有 最 优 解 ， 则 基 可 行 解 中 一 定 存在 有 最 优 解 

根据 这 个 定理 知道 , 为 了 找 出 线性 规划 问题 的 最 优 解 没 必 
要 考虑 (无 限 个 ) 可 行 解 的 全 体 ， 可 限定 以 具有 式 (1.6) 的 形式 
的 (有 限 个 ) 基 可 行 解 为 对 象 进行 搜索 . 基于 这 个 想法 进行 有 效 
的 最 优 基 解 搜索 的 是 1947 年 G.B. Dantzig 所 设计 的 单纯 形 法 
{simplex method). 


1.3 单纯 形 法 


单纯 形 法 是 逐步 生成 有 较 小 目标 函数 值 的 基 可 行 解 ， 最 终 

到 达 最 优 解 的 选民 法 , 这 里 , 首先 假定 对 标准 形 问 题 (1.1) 得 到 

了 一 个 给 出 基 可 行 解 的 划分 z = [rs zu], A = [B,N] { 求 基 可 行 
解 的 一 般 方法 在 1.6 VAR). 此 时 ,根据 式 (1.5), 因为 

2g = B-b- B^!Nzy (1.9) 

目标 函数 的 系数 向 量 也 同样 划分 为 c = [esen], 车 用 z 表 


示 目 标 函 数值 ， 则 z 可 用 仅 含 有 非 基 变量 zw 的 形式 表示 如 下 
1) 


1) È (1.10) i j EN KERE N 被 看 成 是 非 基 变 量 的 下 标 集合 ， 以 下 也 同 
E, N 不 饮 表示 非 基 矩 阵 ， 也 用 来 表示 非 基 变 重 下 标 和 集合 . 
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z =cBzB + can 
=cp8 b + (ch -chB IN)ry 
— + $ (e; — ze; (1.10) 
jeN 


XE SÉ. zo fh z 是 用 


zo = c5 Bob (1.11) 
zj = cb B^ la; (1.12) 


定义 的 数 ，a; 表示 矩阵 A 的 第 了 列 向 量 , 特别 是 , 式 (111) 中 
zo RR ÆN ITA x = ze,zw] = [B-'5,0] 对 应 的 目标 函数 值 . 
5, X (1.10) E, c; —2; EU RET HERE SERE c, 的 变化 ， 目 
标 函 数值 的 变化 率 ,， 称 为 非 基 变量 zi 的 相对 成 本 系数 (relative 
cost coefficient). 

RE, 假定 对 应 于 某 个 划分 z = [eB en], A= [B,N], ER 
(112) 所 决定 的 z 满足 


cj-z 20 (GEN) (1.13) 


这 时 ， 因 为 任意 可 行 解 z 满足 r >oge N), 记 它 的 目标 函数 
值 为 z, 则 由 式 111), x] 
z=z0+ M (c — zj)zj > zo (1.14) 
jeN 
也 就 是 ,因为 基 可 行 解 z = [zB ry} = [B 15,0] 的 目标 函数 值 不 
比 和 任何 一 个 可 行 解 的 目标 郴 数 值 大 , 由 此 知道 它 即 为 问题 (1.1) 
前 最 优 解 - 
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反之 ， 式 (1.13) 不 成 立时 ， 存 在 有 满足 
cp—zp<0 (1.15) 


B peN. 因此 ， 把 zx, 以 外 的 非 基 变 量 固定 为 现在 的 值 0, 将 
zp 值 由 0 增 至 A(> 0), 根 据 式 (1.11) 和 (1.15), 目标 函数 值 > 可 
由 zo 减 至 zot (ep 一 zp)A (X zo). 

这 时 ,为 了 保持 问题 (13) 的 可 行 性 ， 有 必要 让 基 变 量 zp 
在 满足 式 (1.9) 的 条 件 下 变化 ， 故 做 如 下 修正 . st (1.9) 可 写成 


zs = Bb-B-! > ajj 
jeN 


BR zp = A, 2; =0 (j € N,j # p), W zs 的 值 成 为 
zp —B !b- B la (1.16) 
这 里 ， 为 表达 方便 ， 令 
b-B-^ 
Yp = Bla, 


把 向 量 zp,B,yp 的 分 量 分 别 记 为 za = (15,83 25,)7, 6 — 
(Ër, bzs- 5,,)7, yp = (ps Yap, Ymp)”, 则 式 (1.16) 可 写成 下 式 


n. 


Te b Yip 
TB: 5. Va. 

ais |- Ia (117) 
TB. bm Vp 


DEBARAJ = [sacr] PERE *a 的 分 量 排列 顺序 ,把 第 + 个 变 最 表示 
为 za Ei, Homo 3,25 = (12.250), W zB, = 22,25, = 25,85, = %1. 
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根据 问题 (1.1) 的 约束 条 件 ， 变 量 必须 全 部 非 负 ， 在 式 (1.17) 右 
边 不 为 负 的 范围 里 取 最 大 的 A, 即 以 


b, ; { 5 
= = min į 一 

Yrp Yip 
作为 变量 rp 的 新 值 . 其 中 ， 式 (1.18) 意味 着 对 成 立 yp > 0 B9 
z 取 最 小 .将 达到 最 小 的 下 标记 为 ". 这 样 定 下 的 


Yip > 0 (i= T (1.18) 


£a, = bi — yu (i= 1,2, m) (1.19) 
一 从 (L20) 
好 一 0 GEN, jp) (21) 
是 问题 (1.1) 的 可 行 解 ， 特 别 是 关于 变量 me, 成立 
sB, 一 0 (1.22) 


根据 式 (1.19)-(122), zs 和 s; (j € N,j £ p) SE n-m 
个 变量 的 取 值 为 0, 取 值 为 正 的 只 能 是 除 此 之 外 的 m 个 变量 
工本 ,ZE 152p EB,- Bn- 因此 ， 把 这 m 个 变量 看 成 新 的 
EER, 其 他 n 一 m 个 变量 看 成 非 基 变量 ,就 得 到 新 的 划分 - 
进一步 ， 可 以 证 明 以 向 量 ap, ap, Op aBn 为 列 的 
mx 和 im 矩阵 是 非 奇 异 的 ,因此 这 个 新 的 划分 具有 前 节 所 讲 的 基 
矩阵 的 资格 . 

以 上 的 操作 通过 符 换 基 变 量 xp. 和 非 基 变 量 zp 来 确定 新 
的 基 解 ， 称 之 为 转轴 运算 (pivoting). 另外 ， 称 这 时 的 rs. 为 出 
基 变 量 ， zp AARTE. 这 样 一 来 得 到 新 的 基 可 行 解 ， 重复 
上 述 步骤 利用 式 (1.11), (1.12) 进行 计算 ， 并 利用 (1.13) 进行 最 
RAE. 

ER (117) 中 不 存在 有 使 wp > 0 的 1, 则 不 论 人 有 多 大 , 基 
变量 决 不 可 能 为 负 . 这 意味 着 在 保持 问题 (1.1) 的 可 行 性 的 同 
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时 , 目标 函数 值 可 以 任意 小 , 也 就 是 问题 (1.1) ÆR (unbounded), 
因此 可 以 结束 计算 . 
综合 以 上 计算 步骤 得 到 如 下 算法 . 


算法 SIMPLEX (单纯 形 法 } 

第 一 步 (初始 化 ): 确定 给 出 基 可 行 解 的 划分 4 = [B,N], 计算 
zg =b:= BO. 

第 二 步 (最 优 判 定 ): 计算 向 量 w 一 (B87)-1cs, 对 所 有 的 非 基 分 
HjeNGRHU z = waj. In c; z 2 0 € N), WAE 
的 基 解 [zs ry] = [50] 是 最 优 解 ， 因 而 结束 计算 . 否则 选 
取 一 个 满足 c。 一 zp。<0 的 peN 进入 第 三 步 . 

第 三 步 (转轴 运算 ): 计算 向 量 yj = Bap WE yp < 0, 则 问题 
(1.1) 没有 有 界 解 。 因 而 结束 计算 . 否则 ， 找 出 成 立 


A = b [yep = min{bi/yip| vip > 0(1— 1,2,...,m)} 


的 7. EERE B OIAR op, 与 a, 交换 ， 确 定 新 的 基 

矩阵 B. 进一步 ， 记 新 基 变 量 的 值 为 ze, = bi- yipA (i =, 
L,2,.,m, icr) 和 zp = 人. 令 基 变量 的 下 标 集合 和 非 基 变 

量 的 下 等 集合 分 别 为 B:= BU(p) - (B.), N := NU(B,)— 

i») 回 到 第 二 步 . 


执行 算法 SIMPLEX 时 ， 有 必要 事先 找 出 一 个 基 可 行 解 ， 
对 一 般 问题 来 说 这 并 不 一 定 是 件 容易 的 事情 . 关于 这 一 点 要 在 
1.6 节 详 细 说 明 . 

第 二 步 里 用 向 量 


w = (B7) eg 
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为 媒介 ， 计算 各 非 基 变量 对 应 的 相对 成 本 系数 cj — 29. 向 量 也 
的 分 量 一 般 称 为 单纯 形 和 铺子 (simplex multipliers). 552b, A2 
变量 rp 从 成 立 cp 一 思 <0 之 中 适当 选取 任意 一 个 都 行 , 特别 注 
意 到 相对 成 本 系数 -zy 表 示 增 加 z; 时 目标 函数 的 变化 率 ， 
为 减少 算法 的 迭代 次 数 ， 选 取 成 立 


cp — zp = min {e3 — z5} 


的 zp 一 般 被 认为 是 有 效 的 下. 

在 第 三 步 里 确定 出 基 变 量 rs, 时 ， 使 比值 bi/yip 达 最 个 的 
i 有 可 能 存在 多 个 ， 出 现 无 法 唯一 确定 "的 情况 . 实际 计算 时 
从 中 适当 选取 任意 一 个 都 行 , 但 是 像 下 节 变 讲 的 那样 ， 在 从 理 
论 上 讨论 单纯 形 法 的 有 限 收 化 性 时 , 如何 决 定 入 基 变 量 和 出 基 
变量 成 为 重要 的 问题 . 

下 面 举 例 用 单纯 形 法 解 如 下 问题 ， 


目标 函数 : - 3z1 一 2z。 — 最 小 
约束 条 件 ,2zl +t +e —6 


(1.23) 
Ti 223 十 za 一 6 
z 20 (£—1,.,4) 
初始 解 
a 
第 一 步 ， 取 日 [os cd] HIRE. ze 一 [ 2 ] = [ . °] Í ME 


[ © | 《目标 函数 值 zo = 0). 


迭代 1 


1) 变量 数目 非常 多 时 .严密 找 出 最 小 的 cj 一 5; 本 身 需 要 相当 的 计算 中 . 这 种 
情况 下 ， 提 高 莫 法 全 体 的 计算 效率 的 有 效 方法 是 把 变量 分 成 几 个 组 来 处 理 、 


15 


vele pepe 


on-ta[1]-» BUR c1 — z1 = -3 < 0,e2 — z2 = —2 < 0, EC 


变量 ze 中 任意 一 个 入 基 ， 目标 阔 数值 都 减少 ， 在 此 取 1(P 二 1) 为 
入 基 变 重 进 入 第 三 步 . 


sss a[n] R TEJER 


因为 和 = mia(6/2,6/1) = 3 & v — 1, ERE TB1(= x3) 要 出 基 ， 更 


_ a-la] a -fe 
FH B =la 新 基 变 量 成 为 zB lz] [2a] [1] 


(目标 函数 值 zo = < 中 ze = [-3, 0] | i | 二 -9). 回 到 第 二 步 . 


-1 
-5..2]-]. [25 -3 | [-s2 
ene[zHBJIMT) 
22 = [-3/2,0] l 2 ] = —3/2, xs = [-3/2, af . ] =—3/2. 因为 cz 一 


42: -2— (-3/2) = —1/2 < 0, c3 — z3 = —(-3/2) = 3/2 > 0, 只 有 变量 
22 具有 入 基 资 格 - 令 Pp 一 2 进入 第 三 步 . 


第 = 步 , ws]-[2。 fa] [ue 
Um L v22 1 1 2] [aa | 
因为 入 = min (3/0/2),3/(3/2) = 2 改 r = 2, 也 就 是 en (— z4) 要 出 
基 - 更 新 为 — loe] 新 基 恋 量 成 为 ze = | n ] = | 3g ] = 
E 


| z | (BRER 2 = cPzB | : ] = -10). 回 到 第 二 步 - 
选 代 3 
Aa 
- . u w L 2 1 —3 mu —473 
sz» [aJ RaT [2] 
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zs = [4/3, 1/3] [ . ] = CAf3 sam 4/8, 1/3] | i | --us m 

为 cs — 23 = —(—4/3) = 4/8 > 0,4 — z4 = 一 (一 173) = 1/3 > 0, 故 现在 

的 基 解 = = (2,2,0,0)7 是 最 优 的 . 

上 面 所 述 的 单纯 形 法 一 般 称 为 EIE SE BEER (revised sim- 
plex method). 这 个 方法 的 特征 在 于 ,各 次 迭 代 都 是 利用 当时 的 
基 和 矩阵 和 所 给 问题 的 数据 来 计算 w 和 yp. 为 使 算法 能 有 效 地 
执行 ， 有 必要 在 计算 上 进一步 下 工夫 . 这 样 的 方法 将 在 1.5 节 
说 明 . 

除 修 正 单纯 形 法 外 ,同样 具有 代表 性 的 单纯 形 法 的 计算 方 
式 还 有 利用 表格 的 ， 称 为 单纯 形 列 表 法 (simplex tableau) 的 方 
A 单纯 形 表 是 基于 某 个 基 的 划分 来 表达 问题 的 工具 ， 对 应 每 
个 基 解 都 存在 有 一 个 单纯 形 表 , 单纯 形 表 里 包含 有 执行 单纯 
法 而 需要 的 所 有 信息 ,这 种 方式 没 必 要 像 修 正 单纯 形 法 那样 重 
新 计算 ww 和 yp, 付出 的 代价 是 每 次 迭代 都 要 全 部 重 写 表 ， 因 而 
必须 进行 修正 单纯 形 法 所 不 必要 的 计算 . 利用 表 的 单纯 形 法 和 
修正 单纯 形 法 之 中 , 哪个 能 在 较 少 的 计算 时 间 内 结束 依赖 于 待 
解 问题 的 形状 及 规模 . 对 大 规模 问题 有 可 能 利用 问题 的 结构 使 
计算 有 效 化 ,因此 线性 规划 算法 的 商用 软件 里 一 般 都 采用 修正 
单纯 形 法 . 


1.4 理论 收敛 性 


如 前 节 所 述 ， 经 过 转轴 运算 ， 对 应 于 c- zp < 0 的 非 基 
变量 rp 进入 基 ， 得 到 新 的 基 可 行 解 时 ， 目标 函数 值 仅仅 减少 
lep 一 zpl 人 A. 这 里 ，A 是 式 (1.18) 所 定义 的 量 . 因为 b= BLO, 
根据 式 (1.18) EA A 2 0, 特别 是 当 

b>0 (1.24) 
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成 立时 0 有 A > 0， 目标 涵 数 值 严格 减少 . 另外 , 对 应 各 基 可 行 
解 目标 函数 的 值 是 唯 一 决定 的 , 单纯 形 法 的 各 次 近代 里 若 恒 成 
立 式 (1.24), 则 逐次 生成 的 基 可 行 解 之 中 应 该 不 存在 有 相间 的 . 
因为 基 可 行 解数 目 基 有 限 的 ， 在 这 种 情况 下 , 选 代 不 会 无 限 次 重 
AFE, 而 在 有 限 次 选 代 后 结束 计算 . 基 可 行 解 [ze,zw] = [5,0] 
满足 式 (1.24) BE, REA 非 退 化 (nondegenerate) B). 反之 , 存在 
b =0 的 i 时 ， 称 该 基 解 为 iB {t (degenerate) 的 . 以 上 的 讨论 可 
综合 成 如 下 定理 . 


定理 1.2 (单纯 形 法 的 有 限 收敛 性 一 非 退 化 的 情况 ) 车 
所 给 定 的 线性 规划 问题 可 以 求 出 初始 基 可 行 解 ,而 且 计算 中 出 
现 的 所 有 基 可 行 解 都 是 非 退化 的 , 则 利用 单纯 形 法 在 有 限 次 先 
RE, 要么 找到 最 谍 解 ， 要么 识别 出 问题 无 有 界 解 从 而 结束 计 
算 . 


该 定理 本 质 上 依赖 于 对 基 解 的 非 退 化 性 假定 . 为 观察 退化 
基 解 究竟 表达 怎样 一 种 现象 ， 考 虑 如 下 问题 . 


目标 函 教 , ~ 3z1 ~ 2zz — 最 小 


约 东 条件:2rl 十 zz 十 zs -6 
Zit222 二 za =6 (1.25) 
zı +25 =3 


zozÜO (i=1,2,...,5) 


该 问题 里 三 种 基 的 划分 za = (21,22,24) EB = (21,23 24) B = 
{z1, 2a 25) 所 确定 的 基 可 行 解 都 是 退化 的 ， 进 一 步 容 易 验 证 它 
们 对 应 于 同一 个 可 行 解 (zl rz, £3, 24, zs) = (3,0,0,3,0). 另外 ， 


1) R (1.24) 表示 的 所 有 分 量 为 正 、 


18 


在 (21,22)- 平面 上 表示 问题 (1.25) 可 行 域 的 图 1.3 里 ， 该 基 可 
行 解 对 应 于 rz = 0,22, 22 = 6 (z4 = 0) X xi = 3 (25 — 0) m 
直线 的 相交 点 . 平面 上 随机 放 上 三 条 直线 ,它们 刚好 交 于 一 点 
的 情况 是 比较 少 的 ， 因 此、 可 以 认为 类 似 该 例 的 退化 基 解 是 相 
当 特 殊 的 情况 . 但 是 现实 问题 里 (该 问题 的 结构 上 ) 退化 基 解 出 
现 的 铺 况 决 不 是 稀奇 的 . 


图 1.3 BLER . 

CERTE 1: M eS FUP REE RT (1E, 5X 018) 的 
A 可 能 成 为 0. DÀ UG 3E ET EE Bin S3, :虽然 基 变 量 和 非 基 变量 的 
组 合 要 变 , 但 是 解 x 实质 上 不 动 ， 具 标 通 数 的 值 也 不 变化 另 
外 ， 这 个 时 候 。 在 入 基 变 量 无 法 唯一 确定 ， 而 且 出 基 变 量 也 无 
法 唯一 确定 的 情况 下 ,根据 其 选 法 ， 几 次 转轴 运算 之 后 回 到 和 
开始 时 一 样 的 基 变 量 与 非 基 变量 的 组 合 之 可 能 性 也 是 有 的 . 这 
种 现象 称 为 短 环 (cycling)， 如 果 出 现 循环 ， 单 纯 形 法 将 无 数 次 
重复 一 样 的 计算 ， 决 不 可 能 到 达 最 优 解 . 

这 样 一 考虑 可 能 就 认为 单纯 形 法 欠缺 可 靠 性 , 但 是 实际 上 
不 必 过 分 担心 循环 . 因为 ,即使 基 解 的 退化 是 产生 循环 的 必要 
条 件 也 不 是 充分 条 件 0- (尽管 线性 规划 法 的 教科 书 里 出 现 产生 
1) 请 对 问题 (1.25) 用 单纯 形 法 试 算 一 下 .大 概 经 过 退化 基 解 将 到 达 最 优 解 . 
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循环 的 人 工 例子 ) 现实 问题 里 几乎 没有 碰 到 循环 现象 的 报告 ， 
实用 上 和 忽视 循环 的 可 能 性 也 无 关 紧 要 . 

然而 ,理论 上 ， 怎 样 才能 使 单纯 形 法 决 不 产生 循环 是 很 重 
要 的 问题 ， 作 为 这 么 一 类 方法 ， 从 1950 年 代 开 始 就 出 现 了 dE 
动 法 (perturbation method) 和 字典 法 (lexicographic method), 但 
是 在 1977 年 提出 的 称 为 最 小 下 标 规则 (smallest subscript rule; 
也 称 Bland 规则 ) 之 思想 非常 简单 


定理 1.3 (单纯 形 法 的 有 限 收 敛 性 一 最 小 下 标 规 则 ) A 
代 中 .入 基 变 量 或 出 基 变 量 存 在 多 个 候 补 的 情况 下 , 恒 选 取 具 
有 最 小 下 标 了 的 变量 x;. 这 时 单纯 形 法 在 有 限 次 迭代 后 结束 计 
*. 


最 小 下 标 规则 作为 防止 循环 的 方法 非常 有 魅力 ， 但 实际 
上 上， 比如 前 节 所 述 的 那样 ， 和 选取 使 oj - z; 最 小 的 变量 zj 入 
基 的 方法 相 比 有 需要 较 多 次 选 代 的 慑 向 ,因此 不 能 照搬 原样 使 
用 . 

根据 以 上 讨论 ， 我 们 知道 了 单纯 形 法 具有 有 限 收 敛 性 . 那 
4, 它 的 千代 次 数 要 多 大 呢 ? 根据 至 今 长 年 积累 的 经 验 来 看 ， 
对 线性 规划 问题 (1.1) 应 用 单纯 形 法 时 ,办 代 次 数 主 要 依赖 于 
约束 条 件 的 数目 m, 一 般 认为 在 1.5m 到 3m Zi. 这 意味 着 即 
使 问题 的 规模 增 大 ， 所 导致 的 计算 量 的 增 大 是 比较 少 的 . 这 是 
实用 上 相当 令 人 满意 的 性 质 . 

得 是 上 面 关 于 迁 代 次 数 的 估计 到 底 仅 仅 是 经 验 性 的 东西 
并 不 是 理论 上 的 保证 . 实际 上 ， V. Klee 和 GJ. Minty 对 某 个 
特殊 形状 的 问题 用 单纯 形 法 时 , 证 明了 到 达 最 优 解 需要 2"m 一 1 
KER. 也 就 是 说 ,用 计算 复杂 性 理论 的 术语 ,单纯 形 法 不 是 
多 项 式 时 间 算 法 , 而 是 在 最 坏 的 情况 下 需要 指数 时 间 计 算 量 的 
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"dk. 

这 样 就 产生 了 是 否 存在 解 线性 规划 问题 ， 即 使 在 最 坏 情 况 
下 也 可 在 多 项 式 时 间 内 解 出 的 算法 ， 换 句 话说 ， 线 性 规划 问题 
是 否 属于 P 类 的 问题 . 1979 年 L.G. Khachiyan 第 一 次 对 该 问题 
给 出 了 肯定 回答 . Khachiyan 所 考察 的 被 称 为 烽 球 法 (ellipsoid 
method) 的 方法 虽然 在 理论 上 是 多项式 时 间 算 法 ， 可 是 它 的 实 
际 计 算 时 间 比 起 单纯 形 法 显然 要 长 ， 因 此 还 没有 达到 实用 化 
的 地 步 ， 然 而 1984 年 N. Karmarkar 发 表 了 新 的 多 项 式 时 间 算 
法 ， 它 在 实际 计算 效率 方面 也 被 认为 比 单纯 形 法 要 强 . 4 8977 
法 现在 一 般 被 称 为 内 点 法 (interior method), 渐渐 地 被 评价 为 代 
替 单 纯 形 法 的 强 有 力 方法 . 本 书 在 第 5 章 里 要 对 这 些 方法 进行 
讲解 


1.5 单纯 形 法 的 有 效 化 


1.3 节 所 述 的 单纯 形 法 算法 中 , 需要 计算 量 最 多 的 是 计算 初 
始 解 zs = BOB 以 及 各 迭代 中 向 量 w = (BT) tes, yp = Bap. 
为 求 出 它们 只 要 分 别 把 zB,w,yp 作为 变量 , 解 下 面 三 个 一 次 方 
程式 


Brp=b (1.26) 
B*w-cg (1.27) 
By, = üp (1.28) 


BÆ, BER B 在 每 次 迭代 中 变化 ,每 次 从 头 解 方程 式 (1.27) 
和 (1.28) 的 计算 量 相当 大 , 因此， 注意 到 当前 的 基 和 矩阵 除了 
新 入 基 的 变量 对 应 的 一 列 后 与 前 次 选 代 的 基 和 矩阵 相 同 这 个 事 
实 ， 考 虑 如 何 有 效 利用 到 前 次 迭代 为 止 得 到 的 信息 来 求解 . 
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首先 ， 考 虑 有 关 初 始 基 可 行 解 的 计算 . 实际 上 初始 基 和 矩阵 
为 单位 矩阵 的 情况 不 少 (参照 1.6 节 ), 但 是 因为 这 里 同时 也 考 
不 后 继 基 矩阵 的 再 分 解 ， 故 设 定 一 般 的 铺 况 . 令 初 始 基 矩 阵 为 
BO, A BÓ 是 非 奇 异 的 ， 可 以 用 某 个 下 三 角 矩 阵 Ln E 
矩阵 区 表示 为 也 


BO = LU (1.29) 
式 (1.29) 的 表现 形式 称 为 矩阵 BO 的 LU 分 解 (LU decompo- 
sition), 其 实际 计算 方法 在 一 般 的 数值 分 析 教 科 书 里 都 有 ， 于 
是 ， 这 里 省 略 计算 法 的 详细 细节 ， 仅 仅 述说 一 个 注意 事项 .一 
B, 问题 的 规模 变 大 时 ,系数 矩阵 4 中 非 零 分 前 比 起 零 分 量 来 
说 会 变 少 而 有 成 为 稀 本 矩阵 (sparse matrix) 的 趋势 . 矩阵 为 稀 
琉 的 时 候 , 让 计算 机 仅 记忆 韭 符 分量 的 有 关 信 息 便 可 以 有 效 利 
用 记忆 人 空间， 用 上 这 个 技巧 后 计算 也 得 以 加 速 . 另外 ,可 以 认 
A, REGERE 4 为 稀疏 时 的 问题 里 基 和 矩阵 B 也 是 稀疏 的 ， 对 
这 种 问题 ， 人们 下 工夫 研究 了 LU 分 解 的 计算 方法 ， 在 把 矩阵 
五 的 行 和 列 作 适 当 的 置换 后 ， 使 矩阵 工 和 UV 成 为 稀 朴 的 而 且 
使 得 计算 误差 的 影响 很 小 . 

在 得 到 矩阵 BO 的 LU 分 解 后 ， 方 程式 (1.20) 可 表示 为 


LUzB =b (1.30) 
这 可 分 成 两 步 来 解 ， 首 先 解 以 z 为 未 知 数 的 方程 式 

Li-b (1.31) 
以 得 到 的 解 z 为 右边 的 常数 ， 有 方程 式 

Urs =z (1.32) 


再 求 出 这 个 方程 的 解 ra. 注意 到 这 些 方程 式 的 系数 矩阵 的 形 
状 ， 方 程式 (1.31) 里 从 变量 z 的 第 一 个 分 量 开始 依 顺 方向 (前 


D IEHAGEÉEL = (ti) 为 下 三 角 的 是 指 如 果 i<j "ESL = 0, 正方 矩阵 
U= (wij) 为 上 三 角 的 是 指 如 果 宇 > 了 Ms wij = 0. 
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Xt) 代入 ,方程式 (1.32) 里 从 变量 rs 的 最 后 一 个 分 量 开始 依 反 
方向 (后 退 ) 代入 ， 可 以 一 个 接 一 个 地 确定 其 值 . 于 是 , 一 旦 计 
AT LU 分 解 (1.29), 就 容易 求 出 方程 式 (1.30) 的 解 . 

下 一 步 ， 考虑 方程 式 (1.27) 和 (1.28). 把 第 站 次 达 代 结束 时 
得 到 的 基 和 矩阵 记 为 BO 现 假 定 在 第 上 次 迭代 里 、 基 变量 xn. 
出 基 ， 取而代之 的 是 非 基 变量 zp 入 基 ， 矩 阵 BO 是 用 向 量 a, 
替代 前 一 步 的 基 和 矩阵 B-D 的 第 > 列 ap, 后 的 矩阵 ， 根 据 加 
BUE X. yp = Blap 成 立 有 


BO) Z BUD + (ay — ap,)ez 
-BU-9 (E (yp — ede) 
2g6-DpgUu) (1.33) 


RE, er 是 第 " 分 量 为 1 其 余 全 为 0 的 单位 向 量 ， ECOSSE 
位 矩阵 的 第 列 被 向 量 v, 替代 后 的 矩阵 了 


E” = Yrp (1.34) 


Ymp 1 


于 是 , 根据 式 (1.29), (1.33), 第 上 次 选 代 结 束 时 的 基 矩 阵 BUS 可 
表示 如 下 - 

B® — LUEO EO... gt (1.85) 
7) 用 计算 机 处 理 式 (1.34) DAER EC) 时 ， 只 要 记忆 向 量 vyp 的 值 以 及 它 将 要 
替代 的 是 EO! OR rR ERRET. 


23 


称 它 为 基 矩 阵 的 积 形式 (product form). 
车 利用 积 形式 (1.35), 式 (1.27), (1.28) 可 分 别 写 成 


ET (Ero7( (Er qur (LT) 让 = e (1.36) 
Ce (ern (es) = am 


HESR (1.27) BU RR w AT Hirst, (1.36) 从 外 侧 括 弧 开 始 依次 分 解 得 到 
一 连 串 的 方程 式 


EOT u, = eg, ER DTws = wy, EOIT = Uki, 


UT uy, = uk, LTw = ukya (1.38) 


逐次 计算 其 解 uues w 而 求 得 ， 同 样式 (1.28) BU RE yp 可 由 
X (1.37) 所 构成 的 一 连 串 方程 式 


Lua =ap Uv, v, Elv = vzo, a39 
1. 


El Drs = vg, EU, = uu 


逐次 计算 其 解 wm,…,ak+l*yp 而 得 到 . 

这 里 , 注意 包含 三 角 矩 隆 工 和 了 的 方程 式 可 像 刚 才 所 述 的 
那样 用 前 进 代入 或 者 后 退 代 入 法 容易 解 出 ,包含 和 矩阵 EU, pO 
的 方程 式 在 考虑 这 些 短 阵 的 特殊 形状 (1.34) 后 可 以 非常 简单 地 
解 出 于是， 如 果 保 持 基 和 矩阵 的 积 形 式 (1.35), 方程 式 (1.27) 和 
(1.28) 的 解 w yp 的 计算 就 很 容易 进行 ， 另外， 各 次 迭代 里 基 矩 
阵 的 积 形式 (1.35) 的 更 新 也 可 以 仅仅 追加 该 选 代 所 用 的 向 量 
v» 的 值 到 记忆 库 就 行 , 因而 一 次 迭代 的 记 亿 量 的 增加 也 仅 是 一 
点 点 . 但 是 ， 如 果 照 原样 执行 该 方法 的 话 ， 随 着 和 迭代 进行 下 去 
由 修正 单纯 形 法 里 也 有 旺 式 处 理 基 匈 阵 妃 之 送 矩 隆 的 方法 . 在 这 类 方法 里 ， 
积 形式 这 个 词 在 很 多 时 候 是 针对 用 类 伏 式 (1.35) 的 把 式 来 直接 表现 B- 而 用 
Ee. 
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必要 的 记忆 董 和 为 解 一 连 串 方程 式 (1.38), (1.39) 的 计算 量 要 变 
得 很 大 ,而 且 计 算 误差 也 累积 下 去 ， 因 此 实际 上 每 过 几 次 迭代 
后 有 必要 把 该 时 刻 的 基 和 矩阵 看 成 初始 基 和 矩阵， 重新 计算 LU 分 
解 (1.29). Fux de SEXE EE M) 再 分 解 (refactorization). 


士 述 方法 看 起 来 复杂 ， 可 是 因为 特别 是 当 用 计算 机 解 大 规 
模 问 题 时 ,在 必要 的 记忆 容量 和 计算 误差 等 方面 有 利 ， 所 以 ， 
它 已 成 为 现在 单纯 形 法 程序 的 标准 想法 . 


1.6 初始 基 可 行 解 的 计算 


1.3 节 的 单纯 形 法 需要 一 个 基 可 行 解 作为 初始 解 . 1.3 48 
的 例 (1.23) 里 存在 有 明显 的 基 可 行 解 ,但 这 仅仅 是 特别 情形 . 
一 般 问 题 中 必须 设法 求 出 初始 解 - 为 此 ， 本 节 介 绍 经 常用 到 的 
两 阶段 法 和 大 M 法 . 在 以 下 的 讨论 中 , 假设 问题 已 变换 成 为 标 
HEE (1.1), 而 且 约束 条 件 右 边 的 常数 的 所 有 分 量 均 非 负 ， 如 
EAR bi < 0 一样 的 约束 条 件 ， 则 在 该 式 两 边 习 以 -1 ET, 
故 这 个 假定 不 失 一 般 性 . 

所 谓 两 阶段 法 (two-phase method), 是 首先 全 力求 出 问题 的 
一 个 基 可 行 解 ， 在 得 到 这 样 的 解 后 ， 下 一 步 再 以 它 为 初始 基 解 
计算 最 优 解 . 两 阶段 法 的 第 一 阶段 里 ,作为 针对 问题 (1.1) 的 辅 
助 问题 ， 考 虑 如 下 的 线性 规划 问题 . 


目标 函数 :dry 一 > 最 小 
约束 条 件 : Ax + y=b6, >0,y>0 


RE, y 为 新 引进 的 m 维 变 量 向 量 ，d 是 所 有 的 分 量 均 为 1 的 
常数 向 量 . 变量 y 类 似 于 1.1 节 所 述 的 松弛 变量 相 比 之 下 ， 
后 者 的 引入 为 的 是 把 不 等 式 变 成 等 式 , 它 本 身上 共有 某 种 物理 意 
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(1.40) 


X, 而 前 者 是 为 了 把 本 来 是 等 式 的 约束 条 件 人 为 变 成 其 它 形式 
的 等 式 条 件 而 用 到 的 人 工 变量 (artificial variable). 

考虑 对 问题 (1.40) 利用 单纯 形 法 . 该 问题 的 变量 为 (z, 引 , 划 
分 y 为 基 变 量 ，z 为 非 基 变量 . 根据 假定 > 0, 因此 (zx,y) = (0,5) 
是 基 可 行 解 . 另外, 这 时 基 矩 阵 是 单位 矩阵 , 因而 对 于 问题 (1.40)， 
把 该 基 可 行 解 当 作 初 始 解 ， 就 可 直接 用 上 单纯 形 法 . 

显然 ,问题 (1.40) 的 目标 函数 dTy = Soa vi 在 可 行 域 里 到 
非 负 值 ， 于是， 如 果 最 优 解 是 (2, 9), 则 成 立 dTg > 0. 

如 果 候 定 原来 的 问题 (1.1) 里 存在 可 行 解 ， 则 任意 可 行 解 
z 和 y=0 的 组 (zx,0) 满足 问题 (1.40) 的 约束 条 件 ， 其 目标 函数 
È dy 成 为 0. 这 个 事实 意味 着 ， 当 问题 (1.40) 的 最 优 解 Gg) 
里 成 立 有 d75>0 时 ,原来 的 问题 (LI) 没有 可 行 解 . 这 种 情况 
下 ， 第 一 阶段 结束 时 可 以 结束 整个 计算 . 

相反 ， 如 果 (9) 里 不 成 立 好 了 > 0, 则 必然 有 dz 了 = 0, 也 
即 成 立 了 = 0. 在 这 种 情况 下 ，# 显然 是 问题 (1.1) 的 一 个 可 行 
解 . 进一步 ，(z,y) = (2,0) 是 问题 (1.40) 的 基 可 行 解 . 这 时 候 ， 
可 以 认为 有 人 工 变量 y; 全 为 非 基 变量 以 及 人 工 变 量 中 存在 有 
基 变量 这 样 两 种 情况 . 

在 第 一 种 情况 下 ， 基 变量 全 为 变量 z 的 分 量 ， 才 = = 天 是 
问题 (1.1) 的 基 可 行 解 ， 对 问题 (1.1) 用 单纯 形 法 的 时 候 ， 可 以 
把 它 当 作 初 始 基 解 用 . 

在 第 二 种 情况 下 ， 因 为 基 中 留 有 人 工 变 量 ， 不 能 照搬 成 为 
问题 (1.1) 的 基 解 . 但 是 ,这 个 时 候 , 通过 把 进入 了 基 的 人 工 变 
En 和 满足 某 条 件 的 非 基 变量 z; 交换 作 转 轴 运 算 后 ， 可 以 使 
其 变量 仅仅 由 变量 z 的 分 量 构 成 .把 它 当 作 针 对 问题 (1.1) 的 
初始 基 解 即 可 . 
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作为 例子 用 两 阶段 法 解 如 下 的 问题 看 一 看 . 
目标 函数 : - z1 — 2zrz -3ra 一 ? 最 小 


约 东 条 件 :2rl + zz + xs 一 人 
Tı +2r2 十 了 3 — 8 


(1.41) 


zi20,275 20,24 20 
第 一 阶段 : 辅助 问题 (1.40) 可 写成 下 式 . 这 里 人 工 变量 用 ra,zs 
Am. 
目标 函数 :ra+zs — 最 小 
约 东 条 件 :2zli-Hrz+zs+z =6 
(1.42) 
Tı 2r2 + £3 十 zs 一 8 


2; 20,27;20,25 2 0,2, 2 0,25 20 


初 给 解 


第 一 步 ， 记 初始 基 短 阵 为 号 = [asas] £B = | E ] - [ 1 0 | 
E 0 t 


Al 


mme 


[1.1] | : ] =s =a | : ] 22. HÀ cı -z1 = —3« 0,02 — z2 = 
-3<0,cs-z3= -2<0, 人 和 任意 一 个 非 基 变量 入 基 都 能 使 目标 函数 信 减 
少 、 这 里 选取 mi 为 入 基 变 量 (p — 1) 进入 第 三 步 - 


A 
第 三 步 ， n-[i :] [= [2] a- me =s ma 


7 二 1 ERE rg, (=24) 出 基 ， 更 新 为 B= [al,as]. 新 的 其 变量 的 值 是 
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-= es 


em pepper] 


第 三 


ol 1 1 


z3 = [-1/2,1] | i ] = 1/2,z4 = (-1/2,1] f s ] = -1/2.c — za = 


53/2 < 0, c3 — za = —1/2 < 0,c4 — z4 二 3/2>0, 所 以 变量 za, xs 的 任 
意 一 个 入 基部 能 使 目标 函数 值 减少 , 这 里 选取 ra 为 入 基 变 量 (P = 2) 进 
入 第 三 步 . 
-1 
E: y2 = [ 2 r] | 1 ] - [ 1/2 ] a = mensem = 
1a 2 3/2 
10/3 所 以 + = 2, 也 就 是 rs, (= as) 要 出 基 ， 更 新 为 B= [er 25]. 新 的 


基 变 量 的 值 是 zs 一 | n ] = l 3- (MDA ] - [ 4/3 | . 回 到 第 二 
x2 A 10/3 


sy- |? SEM - ES 


1 0 
safi] =os= wafe] = 0.c3 — z3 = 0,c4 — z4 = 1 > 


0, cs — zs = 1 > 0 所 以 现在 的 基 解 > = (4/3, 10/3,0,0,0) 是 辅助 问题 
0.42) 的 最 优 解 ， 因 为 人 工 变量 =ayzs 全 部 成 为 非 基 变量， 所 以 现在 的 
EER B = [21,22] 不 需 变化 就 可 作为 第 二 阶段 的 初始 基 使 用 . 


第 二 阶段 : 初始 解 
第 一 步 ，B = [o,a], =e = [ n ]-| as ] (目标 函数 信 20 = —8). 


第 二 
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22 10/3 


ERI 


e ppl bee 


为 c3 一 z3 = —2 < 0, 故 要 是 让 变量 za 入 基 就 可 以 使 目标 函数 值 减少 . 


令 P=3 进 入 第 三 步 . 


[p 


A = min ((4/3)/(1/3), (10/3)/(1/3) = 4. 所以， — 1, E8 ep, (= #1) 
要 出 基 . 更 新 为 B = los,eal， 新 的 基 变 量 的 值 成 为 zg = | 3 | = 


z2 


A 4 m 一 
| 10/3 - 0/34 | = | 2 | 《目标 函数 值 zo = —16). 回 到 第 二 步 . 


选 代 2 


sse [ia] [a[i emai] 


X caz = 6 0, ARENE e = (0,2,4) 为 问题 (1.41) 的 最 优 
解 . 


把 两 阶段 法 中 先 求 出 初始 基 解 后 青 进入 最 优 和 解 的 计算 合 
并 成 一 步 进行 作业 的 是 下 述 称 为 大 M 法 (big-M method) 的 方 
法 . 使 用 大 M 法 时 不 直接 处 理 问题 (1.1), 而 考虑 如 下 的 问题 
目标 函数 :crz+ Md?y 一 > 最 小 
约束 条 件 : Az +y=b, zx 之 0,y>0 


(1.43) 


这 里 M 为 正常 数 ， 人 工 变 量 y 及 常数 向 量 4d 与 两 阶段 法 的 一 
样 . 该 问题 也 同样 有 以 人 工 变量 y 为 基 变 量 (BERG Ep Ou HE RAE 
EK) 的 明显 基 可 行 解 (m, v) = (0, 5), 所 以 可 以 把 它 当 作 初 始 解 来 
利用 单纯 形 法 . 

现在 ， 设 定常 数 M 为 相当 大 的 值 . 这 时 问题 (1.43) 的 目标 
HAE, M MdTy(= M Soc. wo) 占 支 配 地 位 ， 所 以 单纯 形 法 首 
先 让 大 工 变量 yi 的 值 减少 . 其 结果 , 如果 所 有 的 人 工 变 量 都 
成 为 0 的话 , 目标 函数 cTz 十 Md?y 和 原来 问题 (1.1) 的 目标 函 
数 crz 本 质 上 一 致 , 可 以 认为 在 此 之 后 单纯 形 法 的 迭代 所 进行 
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的 是 求 出 问题 (1.1) 最 优 解 的 计算 .实际 上 ， 问 题 (1.1) 有 最 优 
解 时 ， 在 常数 M 足够 大 时 ， 得 到 的 问题 (1.43) 的 最 优 解 (5, 罗 ) 
中 ，5=0, 而且 5 成 为 问题 (1.1) 的 最 优 解 

但 是 , 在 取 定 常数 M 解 问题 (1.43) 时 ， ETE TU (2,0) 
中 可 能 出 现 人 工 变量 了 的 分 量 值 留 有 非 0 项， 这 时 可 以 认为 党 
EOM 不 够 大 ,所 以 有 必要 加 大 M 的 值 ， 重 解 问 题 (1.43). 进 一 
步 ， 在 多 次 重复 该 操作 后 人 工 变 业 y 仍 不 为 0 的 时 候 ， 判 定 原 
来 问题 (1.1) 无 可 行 解 ， 结束 计算 . 


1.7 对 偶 定 理 


针对 任意 一 个 线性 规划 问题 ， 可 以 定义 另 一 个 称 为 对 偶 问 
题 (dual problem) 的 问题 ， 对 偶 问 题 的 形式 依赖 于 原 问 题 的 形 
式 ， 比 如 ， 问 题 
目标 函数 :cTx 一 最 小 
HRR Arb, r0 


(1.44) 


的 对 般 问 题 如 下 . 


Rss Tu — 最 大 
约束 条 件 : ATw < c, w>0 


比较 一 下 这 两 个 问题 一方 是 最 小 化 问题 ， 另 一 方 是 最 大 化 问 
题 . 除 此 之 外 还 可 以 从 几 个 地 方 找 出 某 种 对 称 性 . 首先 ,一方 
问题 的 目标 应 数 系数 刚好 成 为 另 一 方 问题 的 约束 条 件 右 边 的 
常数 . 这 意味 着 一 方 问题 的 变量 维 数 和 另 一 方 的 约束 条 件数 目 
相等 .另外 ， 两 个 问题 的 变量 都 带 有 非 负 条 件 ， 但 是 其 它 不 等 
式 约束 条 件 的 不 等 号 的 方向 相反 。 


(2.45) 
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讨论 对 偶 问 题 的 时 候 , 一 般 把 原来 的 问题 称 为 原 问题 (primal 

problem). 然而 ， 这 种 叫 法 是 相对 的 . 为 明确 这 句 话 的 意思 ， 
把 上 面 的 问题 (1.45} 看 成 原 问题 推导 一 下 它 的 对 偶 问 题 ,， 问题 
(1.45) 和 

目标 函数 (w 一 ? 最 小 

ARRIE: (Awe w20 
等 价 ， 根据 上 面 问题 (1.44) 和 (1.45) WAR, E REDI S 
题 可 写成 下 式 . 


HRE: (-cj7z 一 最 大 
ARE: (A)r < -bz 之 0 


但 基因 为 该 问题 显然 和 原 问 题 (1.44) 等 价 ， 由 此 看 出 对 偶 问 题 
的 对 偶 问 题 和 原 问题 一 致 - 

上 面 对 问题 (1.44) 定义 了 对 偶 问题 (1.45). 利用 这 个 关系 对 
任何 形式 的 间 题 都 可 以 确定 其 对 偶 问 题 的 形式 这里， 特别 以 
标准 形 问 题 (1.1) 为 原 问 题 考 虚 一 下 ， 把 问题 (1.1) 改写 为 问题 
(1.44) 的 形式 ， 成 为 


目标 函数 Jr — 最 小 
约束 条 件 ， Azr >>b, AT 之 -b, z20 


因此， 根据 问题 (1.44) 和 (1.45) 的 关系 ， 该 问题 的 对 偶 问题 成 
为 


HRB: Tw -bw — 最 大 
约束 条 件 : ATw — ATw" Se w20, w >0 
RE, #9 ww - ow, 则 最 后 的 问题 改写 为 
目标 函数 :brw — EX 
(1406) 
PRAET Awe 
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这 就 是 标准 形 问题 (1.1) 的 对 偶 问 题 . 注意 在 标准 形 问 题 那 样 
的 原 问题 中 ,其 约束 条 件 为 等 式 时 对 偶 问 题 的 变量 未 带 有 非 负 
条 件 . 

这 样 ， 给 定 一 个 问题 可 以 决定 其 对 偶 间 题 ， 它 们 之 同 有 着 
非常 密切 的 关系 . 特别 是 , 记 z 和 w 分 别 为 问题 (1.44) 和 (1.45) 
的 任意 可 行 解 ， 根 据 hr > b,x > 0, 4Tw < cw > 0, 成 立 有 


Te > wT Ag > wb 


这 一 关系 对 任何 形式 的 原 (最 小 化 ) I] BCRUXE (最 大 化 ) 问题 
对 都 成 立 ， 由 此 可 得 到 如 下 称 作为 弱 对 偶 定 理 (weak duality 
theorem) 的 定理 D. 


定理 1.4 ( 弱 对 侦 定理 ) 任意 问题 (P) 及 其 对 个 问题 (D) 
之 同 成 立 以 下 关系 
à [oaeo wang 
w: HEB (D) ITAR 
Gi) >: 问题 (P) kO TATR = crz > 问题 (D) 的 最 大 什 
Gi) w:HJB (D) 的 可 行 解 一 57w < 问题 (P) 的 最 小 人 
z :问题 (P) 的 可 行 解 
G) 4 wig (D) 的 可 行 解 
cTr = bTw 


一 j 


= Tr > bw 


w: E (D) 的 最 优 解 
0) HE (P) x5 一 > 问题 (D) 无 可 行 解 
(vi) HE (D) ER 一 > 问题 (P) 无 可 行 解 


一 一 一 一 DAN 
D 定理 14 (ivi 全 部 可 从 (i) 容易 导出 ， 所 以 有 不 少数 学 规划 教科 韦 仅 
EQ) 称 为 红 对 偶 定 理 . 
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下 一 步 证 明 原 问题 有 最 优 解 时 ， 对 偶 问题 也 一 定 有 最 优 
解 . 为 讨论 简单 起 见 ， 仍 定 原 问题 是 已 变换 为 标准 形 问题 (11) 
的 问题 . 设 问题 (1.1) 的 最 优 基 解 为 = = (ep e) = (B 15.0), 
与 它们 对 应 的 单纯 形 乘 子 是 w = (BT) ee, 则 根据 最 优 条 件 
(1.13) M£ (1.12), 成 立 有 

en — NTw z 0 
另外 ， 根 据 w 的 定义 , BHA Bw = cs, BERR A= [B,N], w 
应 该 满足 
ATw<e 
也 就 是 ,这 个 ze 是 问题 (1.1) 的 对 偶 问 题 (1.46) 的 可 行 解 . 进 一 
2p. BE w= (BT) cs WI z= (2p m) = (B^ 15,0), RLA 
wTb = c B!b = chep 一 cTz 
因此 ， 由 定理 1.4 的 Gv), w 是 对 偶 问 题 (1.46) 的 最 优 解 . 

像 在 本 节 开 始 所 述 的 那样 ， 原 问题 和 对 侦 问 题 的 关系 是 相 
对 的 , 因此 , 可 以 把 上 面 的 结果 综合 成 如 于 的 对偶 定理 (duality 
theorem) 的 形式 . 


定理 1.5 (对 偶 定 理 ): RAE (P) 和 对 偶 问题 (D) 之 中 若 
有 一 方 有 最 优 解 则 另 一 方 也 有 最 优 解 . 而 且 这 个 时 候 , 问题 (P) 
的 最 小 值 和 问题 (D) 的 最 大 值 一 致 . 


这 里 重 提 前 节 的 例 (1.41), 考虑 它 的 对 偶 问题 . 该 例 是 标准 
形 ， 因 此 对 偶 问 题 可 写成 下 式 (参照 式 (1.46)). 
HERE Ou + 8w — 最 大 


约 东 条 件 :2ar +w € 一 1 
wi + 2w < 一 2 


(147) 


w + wg < -3 
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WB SUL BB (L41) BS E FR R CS -16, Rea pr 
B- [: ,| 这 时 单纯 形 乘 子 成 为 由 = l; 引 [7] = [:]. 


12 
把 这 个 w 直接 代入 对 侦 问 题 (1.47)， 显然 满足 所 有 的 约 东 条 
件 ， 而 且 它 对 应 的 目标 函数 值 是 -16. 于 是 它 是 对 偶 问 题 的 最 


TAR. 
18 灵敏 度 分 析 


现实 问题 里 ， 有 很 多 时 候 是 基于 统计 方法 及 预测 等 等 得 到 
的 数据 来 决定 系数 . 在 这 种 情况 下 ， 不 仅 要 考虑 系数 的 革 个 特 
EH, 而 且 有 必要 对 实际 上 可 能 由 现 的 各 种 各 样 的 值 来 进行 综 
合 考 虑 , 所谓 灵敏 度 分 析 (sensitivity analysis), 就 是 利用 解 一 个 
问题 得 到 的 结果 ， 研究 当 系 数 有 微小 变化 时 最 优 解 的 反应 . 这 
是 详细 分 析 问 题 所 不 可 欠 少 的 工具 . 

为 简单 起 见 ， 考 察 问题 (1.1) 里 约 东 条 件 右边 常数 向 量 b = 
(B14bo,-…bm)7 作 微 小 变化 后 ， 成 为 b+ Ab = (by + Abi ba 十 
Abo, by + Abm)T 后 的 问题 了 


[I I I PU 一 ; 最 小 
约束 条 件 : 4z =5+Ab 220 


(1.48) 


现在 ,假设 对 问题 (1.1) 利用 单纯 形 法 得 到 最 优 基 解 x* = 
(Ch Th) = (8-15,0). 这 时 对 于 最 优 基 B, 根据 可 行 性 条 件 


Bib>0 {1.49) 


1) BI BREE MAO SA B F BE o FE E O R, ainsi EE E-o TET EEE T.a 
右边 的 常数 向 最 变化 的 情况 ， 但是， 约束 条 件 左 边 的 系数 短 阵 4 变化 的 情况 
比 起 6 和。 的 情况 叙述 起 来 要 复杂 得 名， 
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根据 最 优 性 的 条 件 
CI -CBIN >20 (1.50) 


(参照 式 (1.12), (1.13). 这 里 考虑 让 问题 (1.1) ELO e ERE, 式 
(1.49) 里 的 6b 换 成 5 十 Ab 后 如 果 成 立 


Bllb+Ab)>0 (1.51) 


的 话 ， 因 式 (1.50) 和 6 没关系 ， 故 知道 针对 问题 {1.1) 的 最 优 基 
互 也 是 针对 问题 (1.48)} 的 最 优 基 . 特别 是 ,问题 (1.1) 的 最 优 解 
满足 非 退化 条 件 


Bib>0 


时 ， 式 (151) 对 足够 小 的 任意 Ah RE. ERE, RA bE 
化 量 很 小 的 时 候 ， 最 优 基 无 变化 ,问题 (1.48) 的 最 优 解 成 为 
zz 一 (zBizN)= (B^! (b Ab),0O). 进一步 ， 把 问题 (1.1), (148) 的 
目标 函数 最 小 值 分 别 记 为 z), z(8 + Ab). 因 有 

z(b) = cBB-1b 

z(b + Ab) = cBB- b+ Ab) 
故 成 立 

z(b + Ab) — z(b) = cBB Ab 
[BRE (BT) !eg 是 对 应 基 巨 的 单纯 形 乘 子 w, 根据 前 节 的 讨论 ， 
它 是 问题 (1.1) 的 对 偶 问 题 的 最 优 解 , 因此 , 若 记 w* = (BT)-Lee， 
则 上 式 可 改写 成 为 
z(b + Ab) — z(b) = (w)? Ab = * wiAb; 
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进一步 如 果 考 虑 Ab; 一 0 时 的 极限 ， 就 可 以 得 到 
8:9). 


Ob €" 


这 是 对 偶 问题 的 最 优 解 w 的 第 i 分 量 zt 证明 它 等 于 问题 (1.1) 
ER i TARR ALE b 基础 上 仅仅 增加 1 单位 时 目标 荔 数 
最 小 秆 所 增加 的 比例 . 

这 里 ， 考 虑 上 面 所 述 事实 的 经 济 意义 . 

假设 问题 (1.1) 是 利用 所 给 定 的 凡 种 资源 ， 鳄 生产 成 本 达 
最 小 的 生产 问题 模型 . 这 里 ，&: 是 第 ;种 资源 的 可 能 利用 量 ， 
z(b) 表示 的 是 这 时 对 应 于 最 优生 产 的 成 本 ,根据 式 (1.52), 因为 
DE 等 于 第 i 种 资源 的 可 能 利用 量 发 生变 化 时 对 最 优生 产 成 本 
的 影响 量 . 它 反 应 了 第 i 种 资源 在 该 系统 里 具有 的 潜在 价值 
在 这 意义 下 ， 称 w? 为 第 i 资源 的 潜在 价格 (shadow price 或 影 
子 价格 ). 一 般 说 来 ,各 资源 的 系统 内 的 价值 (潜在 价格 ) 依赖 于 
全 资源 的 目前 可 能 利用 量 8. 它 与 在 系统 外 部 的 价值 (市场 价 
格 ) 不 是 一 个 东西 - 比如 ,在 有 可 投 于 生产 活动 的 剩余 资金 的 
时 候 ， 比 较 各 资源 的 潜在 价格 和 市 场 价格 ， 可 以 认为 筹集 其 差 
较 大 的 资源 是 比较 有 效果 的 . 


= 1,2,...,m) (1.52) 


1.9 文献 及 其 它 话题 


单纯 形 法 作为 研究 对 象 来 说 几乎 到 了 成 熟 的 地 步 。 为 数 众 
多 的 优秀 著作 在 国内 外 出 版 这 里 除 单 纯 形 法 的 生父 Dantzig 
Br B3 [D63] 外 , 还 列举 Chvátal, (C83), 伊 理 186}, 古林 [K80], 4 
$F [K87]. 特 提 一 下 ， Chvátal [C83] 清楚 明了 地 记述 了 从 线性 规 
划 的 理论 到 应 用 的 广泛 内 容 ， 是 本 好 著作 . 建议 想 更 详细 了 解 
本 章 所 述 内 容 的 读者 读 一 读 这 本 书 . 另外 ,作为 综述 了 线性 规 
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划 从 单纯 形 法 到 最 近 的 内 点 法 的 演变 过 程 的 论文 有 Goldfarb, 
Todd [GT89]. 

1.3 节 里 讲 过 , 单纯 形 法 里 除 修 正 单纯 形 法 外 还 有 利用 单纯 
形 表 的 执行 法 后面 的 方法 在 上 述 教 科 书 里 也 出 现 了 . 特别 是 
欧 木 ， 福 岛 [IF91] 里 还 有 附带 着 FORTRAN 程序 的 详细 讲解 . 

14 节 所 讲 到 的 最 小 下 标 规则 (定理 1.3) 是 根据 Bland [B77] 
所 写 的 . 本 书 里 省 略 了 对 最 小 下 标 规则 正确 性 的 数学 证 明 . 
有 兴趣 的 读者 请 参照 原 论 文 或 者 上 述 教科 书 [C83,186,K87]. 53 
外 ， 像 正文 中 提 及 的 那样 ， 从 最 坏 计 算 量 角度 看 单纯 形 法 不 是 
多 项 式 时 间 算 法 , 但 是 经 验 告诉 我 们 它 是 足够 实用 的 . 关于 单 
纯 形 法 的 实际 及 理论 上 的 计算 效率 的 综述 论文 有 Shamir [S87]. 

随 着 单纯 形 法 及 内 点 法 的 进步 , 现在 实用 上 可 求解 规模 相 
当 大 的 线性 规划 问题 . 比如 Beasley [B90] 报告 了 对 有 数 方 到 
数 十 万 个 变量 的 问题 用 单纯 形 法 的 数值 实验 结果 . 另外 ,根据 
把 单纯 形 法 和 内 点 法 进行 组 合 的 方法 ,对 航空 公司 荫 务 员 从 排 
序 问 题 派生 出 来 的 带 有 约 1, 275 万 个 变量 的 线性 规划 问题 (这 
里 系数 矩阵 的 分 量 为 0 或 1) 有 用 超级 计算 机 在 约 4 分 钟 内 解 
出 的 报告 [BGLMS92]. 
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第 2 章 网 络 最 优化 


最 短路 问题 ， 最 大 流 问 题 ， 最 小 成 本 流 问题 等 有 关 网 络 的 
最 优化 问题 在 应 用 场合 下 也 经 常 出 现 . 这 些 问 题 之 中 大 部 分 可 
模型 化 成 为 线性 规划 问题 的 特殊 情况 ,所 以 根据 针对 线性 规划 
问题 的 一 般 结 果 ， 可 在 多 项 式 时 间 内 解 出 ,但 是 ， 如 果 利 用 问 
题 的 特殊 性 ， 有 可 能 更 快 解 出 . 本章 在 综 驶 整个 网 络 最 优化 之 
后 ,稍微 详细 介绍 针对 最 小 成 本 流 问题 的 强 多 项 式 时 间 算 法 . 


2.1 网 络 最 优化 问题 


KEE, G-(V.E) A f m]. 有 时 候 把 其 中 某 个 节点 
作为 始点 * 另 一 个 作为 终点 上 + 而 特殊 对 待 . S ec EERE 
成 本 (cost) c(e) 以 及 容量 (capacity) ule). cfe) 以 及 ule) 都 取 实 
数值 ， 把 这 些 元 素 组 成 的 [EI 维 向量 分 别 记 为 c= (ec(e);e € E), 
u-(u(e);e € E). 通常 假定 ule) > 0 (e € E), 但 c(e) 的 符号 是 自 
由 的 ， 统 括 这 些 的 


N = (G,s t c u) 
称 为 网 络 (network) (在 不 同 的 场合 下 可 能 只 处 理 site, u 的 一 
部 分 ). 另外 ，e = (vou) 的 时 候 ， 也 可 以 把 cle) 及 ule) 记 为 
elow) X u(v,w). 
以 下 介绍 几 个 现实 应 用 中 经 常 出 现 的 网 络 最 优化 问题 . 


1) 有 关 图 和 网 络 的 术语 请 参照 附录 A3 
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2.1.1 最 短路 问题 (shortest patb problem) 

在 最 短路 问题 中 ， 成 本 c(e) 解释 为 边 e 的 长 度 . 最 短路 阿 
题 的 典型 形式 是 ， 在 网 络 N = (G,s,e) 里 求 出 始点 。 到 其 它 各 
点 veV 的 最 短路 及 其 长 度 . 这 里 ,假设 从 s 可 以 到 所 有 其 它 
的 点 weT. 另外 ,定义 weV a vev 的 路 (path) 


A = vio(= w) Vis Viss: -1 Va Cm v) (2.1) 
的 长 度 为 
k-1 
e(r) = S e(vi vu) (2.2) 
3-9 


当 六 中 没有 长 度 为 负 的 回路 的 时 候 ， 存 在 有 从 s 到 所 有 点 
+ 的 最 短路 (如 果 存 在 有 负 的 回路 ， 则 通过 多 次 迁 回 该 回路 可 
使 路 长 发 散 至 œ), 它们 可 以 用 以 s ARI 最 短路 树 来 表示 - 
图 2.1 的 例 中 ， 粗 边 表示 最 短路 树 - 求 * 到 v 的 最 短路 时 ， R 
要 沿 着 s 到 "的 粗 边 走 下 去 就 行 - 


2.1 网 络 和 最 短路 树 


当 G 是 无 向 图 的 时 候 也 本 以 同样 定义 最 短路 问题 .这 种 
情况 下 ， 两 条 边 (vow) 和 (人 不 加 以 区 别 ， 所 以 认为 边 长 满 
Æ ew, w) = e(w, v), 上 面 关于 最 短路 的 性 质 辣 样 成 立 . 
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2.1.2 最 大 流 问题 (maximum flow problem) 


网 络 N = (G,s,t,u) 里 ， 所 谓 从 始点 s 到 终点 + 的 流 (flow) 


是 指 满足 下 面条 件 的 实数 向 量 > = (zf(ejie € E). 


$5 z(e) 一 3D zle)=0 {wEV - (s.t) 
ecOUTiw) eEINtu) 


(2.3) 


这 里 OUT(v) {IN(w)) 表示 G 中 流出 (流入 ) v 的 边 的 集合 . 条 件 
(2.8) 表示 在 s 和 上 二 以 外 的 各 节点 上， 从 ”流出 的 流量 之 和 
本.eOUTtw tle) 与 流入 v 的 流量 之 和 eeN zf(e) 相等 ， 称 为 
流量 守恒 条 和 件 (flow conservation constraint). 结果 ， 从 s 的 纯 流 


出 量 和 到 + 的 纯 流 入 量 


zfs) 全 »» z(e) 一 M z(e) 


eeOUT'(s) eelNts) 
zd)E ze- ^ ze 
celN(o «cOUT(o 
相等 ， 从 而 成 立 
zfs) = z(t) 


这 个 zfs) (也 即 z(£)) 称 为 z 的 流 值 (How value). 
HA z 进一步 满足 窗 量 条 件 (capacity constraint) 


0< z(e) < ule) (e € E) 


(24) 


(2.5) 


的 时 候 ，z 称 为 MIT (feasible flow). 所 谓 最 大 流 问 题 ， 就 是 
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求 出 使 流 值 达 最 大 的 可 行 流 问 题 ， 可 描述 如 下 . 

BREM: (s) — 最 大 

约 东 条 件 ， 》 ee- 了 x(0-0 wEV- {st} 
eeOUTiv) ecIN(o) 


z(s)- MM) s. MD elo 
ecOUT(s eci Nia) 
0 < z(e) S we) (e € E) 


(2.6) 


2.1.8. 最 小 成 本 流 问 题 (minimum cost flow problem) 
考虑 网 络 NN = (G,s,t,e,u) EB x ox HB REC OU 
a(s) = f* 
当然 , 该 产 的 值 必须 在 NN 的 最 大 流 的 值 以 下 . 在 这 个 条 件 下 ， 
求 出 使 成 本 达 最 小 的 流 就 是 最 小 成 本 流 问 题 . 
BRER: J elere) — 最 小 


ecE 


awa DO ee- Y. re)=0 (veV-(st) 
ecOUT(? ecIN(v) 
2.7 
D 9- E 9-5 eD 
ecOUTis) eeINGo) 


0 < z(e) < we) (ee E) 


该 模型 里 ， 始 点 以 及 终点 都 仅仅 是 一 个 . 但 是 .这 并 不 是 本 质 
性 的 约束 . 因为 如 果 要 解 的 最 小 成 本 流 问题 具有 天 个 始点 sj， 
joco BUR BL IE CURE rls) = lh 还 有 E! 个 终点 
td —2ooA BOR A RAE et) — f), 则 可 以 导入 
. (HR) 旺 元 始点 s 和 哑 元 终点 ,加 上 tk) 条 边 

(sj) 成 本 els sj) — 0, ERE uls s) = f(s7) G2, 7.) 
(tO; RA c(t.0 —0, VE ut - PO) GSL s) 
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后 ， 求 出 具有 流 什 
k kt 
F= Pa) ELG) (2.8) 
j=l j=1 


的 从 s 到 的 最 小 成 本 流 就 行 (参照 图 2.2 的 虚线 部 分 ). 


Ora- 
m-i D D N 
OAA- He 
^ -二 


Ex 


&*üekn GG) uten 
E 2.2 具有 名 个 始点 和 终点 的 最 小 成 本 流 问 题 的 转化 (加 上 虚线 部 分 ) 


ERE, 我 们 证 明 最 小 成 本 流 问题 作为 其 特殊 情况 包含 有 
最 短路 问题 以 及 最 大 流 问 题 . 首先 , 通过 导入 哑 元 终点 t, 加 上 
从 weY 出 发 的 这 


(ot); elvt) = 0 u(v t) =1 


后 ， 最 短路 问题 成 为 解 从 s 到 上 的 具有 流 值 f" — n EN 
本 流 问 题 . 这 里 ，m = 让 另外 原 网 络 内 的 边 的 容量 全 假定 为 
oo. 把 所 得 到 的 流 c 分 解 成 从 s 出 发 经 各 点 到 达 上 的 盖 个 
流 (各 自 都 具有 值 1), 追寻 每 个 流 得 到 的 路 (除去 边 (v.t) Je) 就 
给 出 从 s 出 发 的 最 短路 . 


1) 最 外 成 本 流 问 题 里 ， 当 容量 wle) te & E) 为 整数 时 ,可 以 不 失 一 般 性 而 假定 
z(e) (e€ E) 也 是 整数 、 
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其 次 ， 关 于 最 大 流 问题 ， 在 N 中 导入 哑 元 始点 s', 加 上 两 
条 边 

(ss); c(s',s) 0, u(s',s) = co 

(s.s c(s^ t) — 1, u(s' t) = oo 
后 ,求解 从 s' 到 上 的 最 小 成 本 流 问题 即 可 . 这 里 ， 设 定 在 原 网 
络 部 分 里 cte) = 0 (e € E) 并 取 最 大 流 值 的 适当 的 上 界 (比如 说 
Leece ule)) 为 从 = 出 发 的 流 值 fn. 

得 到 的 最 小 成 本 流 zx 里 ,容易 证 明 x(s',s) 给 出 原 问题 的 最 

大 流 值 . 


2.1.4 最 小 成 本 循环 流 问 题 (minimum cost circulation 
problem) 

不 像 最 小 成 本 流 问 题 那 样 假定 特定 的 节点 为 始点 或 者 终 
点 ， 现 在 考虑 在 各 边 e 上 导入 流 的 下 界 值 Ke) 而 得 到 的 网 络 
N = (G,c,l,u). 在 这 个 网 络 上 求 出 使 成 本 和 最 小 的 流 的 问题 称 
为 最 小 成 本 循环 流 问 题 . 


目标 函数 , > ; cle)z(e) 一 ? 最 小 


ecE 
HRR: D ele- zlelj=0 (veV) (2.9) 
ecOUT() eeIN(v) 


lle) < z(e) < u(e) (e € E) 


l(e) 和 ufe) 的 值 可 以 为 满足 
(e) < ule) (ee E) (2.10) 

的 任意 实数 ， 也 有 为 负 的 时 候 ， 
和 最 小 成 本 流 问 题 (2.7) 相 比 ， 问 题 (2.9) 的 约束 条 件 更 简 
单 ， 因 而 具有 可 以 清晰 描述 其 算法 等 优点 .但 是 如 下 所 示 ， 其 
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模型 化 能 力 和 最 小 成 本 流 问题 等 价 . 


首先 , 关于 从 。 到 的 信 为 * 的 流 之 最 小 成 二流 问 题 (2.7) 


可 以 这 样 转化 ， 设计 一 条 + 到 s 的 边 


it, s);c(t, s} = 0, 1{t,s} = f^ u(t,s) = F 


(网 络 其 它 部 分 保持 不 变 ), 所 得 到 的 网 络 的 最 小 成 本 循环 流 问 
题 即 为 (2.7). 这 是 因为 在 边 (ts) EIEE T IE s) = ult, s), 所 以 


由 在 点 s 的 流量 守恒 条 件 。 z(s) = f* 得 以 实现 . 


另 一 方面 ， 在 任意 的 最 小 成 本 循环 流 问 题 里 ， 针 对 满足 


Ios w) 关 0 的 各 边 tv,w) 进行 如 下 操作 ， 


1. 除去 (w, w) AI FFE Ho, w) JE E REI ulo, w) = u(v,w)-— 


l(v, w), 


2 把 w 看 成 具有 流出 量 (v, w) 的 始点 ， 


3 把 ”看 成 具有 流入 量 (vw) 的 终点 ( 即 流出 量 为 o, w) 


的 始点 ), 如 图 2.3, 
** 
de) 


lele huej die hh 


(ete!) ute) 


Qe) — He) 


(ete). ute). tte)) (ele) (ey) 


Hej 
(al EZIILITE! (bj 最 八成 本 流 问 题 


图 2.3 最 小 成 本 循环 流 问题 转化 为 最 小 成 本 流 问题 
(名 表示 出 与 边 e 和 e 相关 联 的 部 分 ) 
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其 结果 ， 从 各 节点 的 流出 量 成 为 


o= > oa- > Ue) 
ecIN(v) eeOUT(Q») 
jk HR. ME (v) 08) o PO (E o = v) 的 始点 ， 满足 
Ko) « 0 W v AAAH 产 (o] = io) 的 终点 .得 到 的 网 络 虽 然 
有 多 个 始点 以 及 终点 , 但 是 像 2.1.3 所 述 的 那样 ,也 可 以 把 这 个 
问题 当 作 最 小 成 本 流 问 题 ， 最 后 ， 基 于 得 到 的 最 优 流 x, 令 


z'(e) = z(e) + (e) (ee E) 


则 zx’ 给 出 最 小 成 本 循环 流 问 题 的 最 优 解 

像 已 经 讲 过 的 那样 ， 最 小 成 本 流 问 题 (以 及 与 之 等 价 的 最 
小 成 本 循环 流 问 题 ) 包含 有 其 特殊 情形 : 最 大 流 问 题 , 另 一 方 
而， 最 大 流 问题 可 以 用 来 得 到 最 小 成 本 流 (以 及 最 小 成 本 循环 
流 问 题 ) 的 可 行 流 . 也 即 ， 在 最 小 成 本 流 问 题 (2.7) 里 ， 设 定 一 
DEPA S 和 边 


(5',s) s u(s'is) = f* 


如 果 求 出 了 s' 到 ot 的 最 大 流 z, 则 在 c 满足 z(s",s) = ft 的 时 
B, 它 即 成 为 原来 问题 的 可 行 流 . 与 此 相反 ， 如果 el, s) < 三 ， 
则 该 最 小 成 本 流 问 题 没有 可 行 流 . 这 个 性 质 经 常用 来 在 最 小 成 
本 流 间 题 和 最 小 成 本 循环 流 问题 中 有 效 地 求 出 可 行 流 . 


本 章 在 下 一 节 综 述 这 些 网 络 最 优化 问题 算法 的 进展 之 后 ， 
在 2.3 节 ~ 2.5 节 中 详细 叙述 针对 最 一 般 的 问题 ， 即 最 小 成 本 
循环 流 问 题 的 算法 . 
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2.2 网 络 最 优化 算法 的 进展 


前 节 所 述 的 网 络 最 优化 问题 全 都 其 有 线性 规划 的 形式 ， 可 
以 用 第 1 章 的 单纯 形 法 求解 . 但 是 ,它们 都 具有 基于 网 络 的 特 
殊 结构 ， 所 以 相应 地 把 单纯 形 法 进一步 特殊 化 后 有 可 能 提高 
计算 效率 . 事实 上 ， 人 们 知道 ， 基 于 图 G 的 生成 树 ， 利 用 简便 
的 数据 结构 可 以 保持 这 些 问题 的 基 解 .为 此 ， 具 有 nn 个 节点 
m 条 边 的 网 络 需 要 的 空间 量 是 O(m +n) (如 果 用 通常 的 列表 单 
纯 形 法 则 需要 Omn) 的 空间 ) 其 结果 ， 得 到 了 网 络 单纯 形 法 
(network simplex method). 可 以 认为 这 种 方法 是 在 实用 上 是 最 
快 的 算法 ,尤其 是 对 于 最 小 成 本 流 问题 .。 (但 是 ， 像 本 章 后 半 
部 分 要 讲 的 那样 ,理论 土 人 们 的 兴趣 集中 在 另外 一 个 算法 上 .】 

本 书 第 5 章 要 讲 到 ， 人 主意 的 线性 规划 问题 部 可 在 多 项 式 时 
间 内 和解 出 2. 于是， 网 络 最 优化 问题 也 全 是 如 此 ， 这 里 ， 请 丰 
忆 所 谓 多 项 式 时 间 是 以 输入 数据 长 度 为 基准 的 . 也 就 是 说 ， 给 
EPAR n, LC m, 成 本 系数 的 最 大 值 C = max [c(e)], 以 及 容 
BORAH U = max. lu(e)| 的 时 候 , 其 计算 时 间 量 是 n,m 以 及 
log C 和 log U 的 多 项 式 阶 的 意思 (另外 .为 简单 起 见 ， 假 定 了 
cle), u(e) 全 是 整数 ), 因此 ， 在 时 间 量 的 评价 中 ， 除 去 logC 和 
log U, 如 果 可 以 用 仅 含 nn 和 m 的 多 项 式 控 制 , 则 称 这 样 的 算法 
是 强 多 项 式 时 间 (strongly polynomial time) 算法 . 因 不 依赖 于 
TU 的 大 小 ， 可 以 认为 这 个 评价 是 更 满意 的 . 

关于 线性 规划 问题 总体 上 是 否 存在 强 多 项 式 算 法 的 问题 
至 邻 尚未 解决 . 但 是 对 一 些 网 络 最 优化 问题 已 知道 有 强 多 项 式 
算法 . 关于 最 短路 问题 和 最 大 流 问题 ， 本 节 以 下 作 简单 说 明 ， 
关于 最 小 或 本 流 问 题 ， 本 节 介 绍 多 项 式 算法 ， 在 下 一 节 以 后 稍 


D 关于 算法 计算 量 的 定义 请 参照 附录 A.4. 
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微 详细 讲述 强 多 项 式 算法 . 最 小 成 本 流 问题 的 强 多 项 式 时 间 算 
法 是 比较 新 的 话题 . 


2.2.33 最 短路 问题 的 算法 

关于 这 个 问题 , 基于 动态 规划 法 (dynamic programming) 的 
和 思想， 人 们 很 旱 就 知道 有 几 个 强 多 项 式 时 间 算 法 . 以 下 说 明 具 
有 代表 性 的 算法 之 一 ， 戴 克 斯 特 拉 法 (Dijkstra’s algorithm). 

计算 中 求 出 的 doh 得 为 从 。 到 的 最 短路 长 o) 的 上 
R, RAE d(v) > Aw). 但 在 节点 集合 PCV 里, 有 do) = cv) 
(v€ P) 的 性 质 . TR, P oV pde, 求 出 了 到 所 有 节点 的 
最 短路 路 长 ， 结 束 计算 


算法 DIJKSTRA ( 戴 克 斯 特 拉 法 ) 


MA: 有 向 图 G = (VE AK c: Eo Ri (这 里 R 是 非 负 实 
数 的 集合 ), 始点 s ET 


输出 ， 到 所 有 的 点 veEV 的 最 短路 长 c*(v). 


第 一 步 (初始 化 ): 令 dis) := 0 以 及 dv) = co (v € V — fs). 
Pd. 


第 二 步 ( 选 代 ): 选取 一 个 满足 d(w*) = min(d(ojv € V — P) 的 
v'ceV —P. 


第 三 步 (更 新 ): c) := de’), P = Pon) 进一步 ， 对 满足 
weV-PB&ire-(vw)e ETEESUM 


d(w) := min(d(w), d(v*) + ele)} 
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第 四 步 (结束 判定 ); 如 果 =V 则 结束 计算 . WR PAVE 
到 第 二 步 . 


在 戴 克 斯 特 拉 法 里 ， 边 长 c(e) 的 非 负 性 是 本 质 的 . 如 果 存 
在 有 负 边 ， 则 运行 情况 可 能 不 佳 . 另外 ,不 失 一 般 性 ， 假 定 s 
到 其 它 节点 v 至少 都 存在 有 一 条 路 (可 达 ). 

戴 克 斯 特 拉 法 的 时 间 量 ， 因 实现 第 二 步 和 第 三 步 的 数据 结 
构 不 同 而 不 同 . 首先 , 第 二 步 和 第 三 步 在 时 间 O(n) 内 是 容易 执 
行 的 . 因为 近代 要 进行 n 次 ， 所 以 这 种 情况 下 的 总 时 间 量 成 为 
Oln?) 另外 ， 如 果 保 持 dlo) (ve V — P) 的 堆 形 数据 结构 。 则 第 
二 步 可 在 常数 时 间 里 执行 而 第 三 步 对 每 条 边 e 可 以 在 Ollogm) 
时 间 里 执行 。 因此， 总 时 间 量 是 O(mlogn)- 任何 一 种 都 是 强 多 
项 式 时 间 . 

四 篇 幅 的 限制 ,在 此 省 略 戴 克 斯 特 拉 法 能 正确 运行 的 证 
BJ, 也 省 略 和 戴 克 斯 特 拉 法 不 间 的 最 短路 算法 的 说 明 . 请 参照 
其 它 文献 . 在 “ 阶 ” 的 意义 上 ,现在 最 快 的 是 Fredman 和 Tarjan 
的 算法 [FT 87], 其 阶 是 O(m + nlogn). 


2.2.2 最 大 流 问题 的 算法 

网 络 N = (G,s,t,u) 里 给 定 了 可 行 流 z 的 时 候 ， 如 下 定义 
余 网 络 (residual network) Ns 和 流 扩充 路 (flow augmenting path). 
从 六 的 各 边 e= (vw) < 至 出 发 ， 按 以 下 规则 生成 边 (v, w) 和 
Qo, v) (根据 情况 仅 取 一 方 ). 得 到 的 边 集合 记 为 BE. 与 此 同时 ， 
MERE v. 


规则 1: 如 果 ue) — z(e) > 0, MER (vw) € Bs, 并 令 其 容量 


u'(v,w) = u(e) — z(e). 


规则 2: 如 果 rle) > 0, 则 生成 (w,v) € E; 并 令 其 容量 ww v) = 
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z(e). 


所 得 到 的 存 向 图 G = (V E) 和 容量 w 合 起 来 便 是 余 网 络 
Nr = (Gastu). Ne PA s E t BORSE EROS HL" TERR. 


9138 2.1 { 流 扩充 路 ) 给 定 网 络 N = (Gs tu). 其 可 行 流 
z 为 最 大 流 的 充分 必要 条 件 是 ， 余 网 络 N 里 不 存在 有 流 扩充 
B. 


根据 下 面 的 事实 很 容易 理解 这 个 引 理 的 必要 性 . 如 果 存 在 
有 流 扩 充 路 ， 则 = 可 以 修正 为 流 值 比 它 更 大 的 流 ” 也 就 是 ， 
假定 在 N: 里 存在 s 到 上 的 路 r, 则 利用 


人 := 一 minfu'(ejle € 7} (2.11) 


X $i] e-(vw)cETrRWPTÉiE 

z(e)-- A, ec (e f& UAR ELM 1 生成 的 边 } 

的 情况 下 

ze:= z(e) — A. e = (wv) En (e 是 根据 规则 2 (2.12) 
生成 的 边 ) 的 情况 下 

z(e), 其 它 情 况 下 
这 里 ，e= (v,w) En 意味 着 路 "从 节点 vv 进入 到 下 一 个 节点 
w 把 x 看 成 是 形成 该 路 的 边 的 集合 . 这 个 时 候 , 很 容易 证 明 ， 
z 也 是 六 的 可 行 流 ， 其 值 是 


z'(s) = z{s) +A 
仅 增 加 了 A (> 0). 为 证 明 引 理 的 充分 性 ， 需 要 稍 深 的 讨论 ， 在 
此 省 略 . 
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利用 这 个 关于 流 扩 充 路 的 性 质 ， 可 以 得 到 如 下 求 最 大 流 的 
算法 . 


算法 MAX-FLOW (最 大 流 ) 
和 输入: Wi N = (G = (LE) s tu). 
输出 : 从 * 到 上 的 最 大 流 值 fmax 
第 一 步 (初始 化 ): 令 fmax :二 0 以 及 r(e) := 0 (e € E). 
第 二 步 ( 余 网 络 ): HER No = (Grs, tw). 


第 三 步 ( 流 的 扩充 ): 如 果 Ne 中 没有 流 的 扩充 路 则 结束 计算 . 相 
E., 如 果 存 在 有 流 的 扩充 上 路， 则 选取 其 一 7, 根据 式 (2.11) 
和 式 (2.12) 修正 > 得 到 流 c", 再 把 它 当 成 r, $ fma := 
fox A. 回 到 第 二 步 . 


TARH, BERCEA s 可 以 通达 所 有 其 它 节点 . 很 
容易 知道 第 二 步 里 构造 余 网 络 能 够 在 O(m) 时 间 内 完成 . 求 出 
流 的 扩充 路 从 而 修正 x 的 第 三 步 也 能 够 在 Olm) 时 间 内 完成 . 
如 果 考 虑 容量 ue) 全 为 非 负 整数 的 情况 ， 则 式 (2.11) 的 A 是 
1 以 上 的 整数 ， 因 而 ， 每 次 迭代 流 的 值 增 加 1 工 以 上 . 把 最 大 流 
的 值 记 为 fwax, 则 选 代 次 数 在 fna. 以 下 ， 该 算法 的 时 间 量 是 
O(mfmax). 

很 遗憾 ， O(mfuu.) 并 非 输 入 数据 长 n+mlogU (这 里 UV = 
max, u(e)) 的 多 项 式 阶 , 另外 , 因 包 含有 (计算 开始 时 的 ) 未 知 参 
数 fmax 而 不 太 令 人 满意， 因此 ,不断 有 人 尝试 着 把 算法 MAX- 
FLOW 修正 为 强 多 项 式 算 法 . 其 中 之 一 是 下 面 Edmonds Karp 
[EK 72] 的 结果 . 
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MAX-FLOW 的 第 三 步 里 选取 流 的 扩充 路 R, X6HX 
边 数 最 小 者 ， 如 果 在 Ns 里 利用 宽度 优先 的 探索 法 ， 则 这 样 的 
a WUE Om) 时 间 内 求 出 ， 式 (211) 里 ， 把 满足 v(e) = 
e € x MARGE. 成 立 有 下 面 的 性 质 . 


。 选 代 过 程 中 ， 同 一 条 边 (v,w) 又 一 次 成 为 瓶颈 边 的 话 ， 则 
一 定 在 中 途 的 某 次 选 代 里 (wv) RAMMA. 


e (vw) 之 后 (w, v) KERA MIAR, MA s 到 t+ 的 最 
小 边 数 的 路 所 包含 的 边 数 至 少 增加 2. 


考虑 N: 里 从 s 到 上 的 最 小 边 数 的 路 , 它 所 包含 的 边 的 数目 
EEr- UTF. 因此, 版 颈 边 的 序列 中 (o, w) 和 Quos v) 出 现 的 
次 数 和 最 多 是 (n 一 1)/2+1= (n 1)/2. 同样 的 讨论 对 所 有 的 边 
tv,w) E 巨 成 立 ， 这 就 推出 ， 在 这 个 选择 规则 下 。 MAX-FLOW 
的 迭代 次 数 在 (n 十 1)m/2 以 下 . 因此 ， 这 种 情况 下 的 计算 量 成 
为 O(nm?), 是 多 项 式 时 间 . 

此 后 ， 改 善 时 间 量 的 努力 还 在 进一步 继续 ， 主 要 在 以 下 几 
个 方面 下 了 功夫 : 


* 改变 选取 流 扩 充 路 的 基 礁 

€ 在 一 次 选 代 中 求 出 多 个 流 的 扩充 路 

。 在 每 次 迭代 中 将 得 出 可 行 流 的 条 件 加 以 放松 ， 利 用 称 为 
预 流 (preflow)1 的 解 

* 改良 数据 结构 . 


1) 满足 容量 约束 玉 缓 和 流量 守恒 条 件 2 co Up tle) 7 Leene Te) S9 
(we V) (也 即 ， 在 各 节点 o 处 的 流入 量 在 其 流出 量 之 上 ) 的 流 x 称 为 预 流 . 
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表 2.1 概括 了 这 段 时 间 里 的 发 展 情况 . 


表 2-1 最 大 流 问 题 的 算法 的 进展 GE S n= S A, 


mO—GÉWOS fuas = 最 大 流 信 ， U= max, u(e) 
发 现 者 时 间 量 
Ford, Fulkerson (1056;fF F621 Om faax) 
Edmonds, Karp (1969) EK72] O(nm?) 
Dinic (1970) O(n?m) 
Karzanev (1974) O(n*) 
Cherkasky (1977) O(n?./m) 


Shiloach (1978) 
Galil, Naamad (1979) 
Galil (1980) 

Sleater, Tarjan (1983) 
Gabow (1985) 


Goldberg, Tarjan (1986)IG F88) 


Abuja, Orlin (1987) 
Ahuja, Orlin, Tarjan (1987) 


O(mnlog? n) 
O(mnlog? n) 
O(nS/32/9) 
O(mnlog n) 
Olmn log U) 
O(mnlog(n? /m)) 
Ot(mn + n? logU) 


© (mn log ( -1246y + 2)) 


2.2.3 最 小 成 本 流 问题 的 算法 
对 该 问题 最 初 的 多 项 式 算法 由 Edmonds 和 Karp [EK72] 提 
出 , 它 成 了 以 后 发 展 强 多 项 式 时 间 算 法 的 开端 ， 下 而 简要 介绍 


该 算法 . 


与 上 面 的 最 大 流 问 题 一 样 , 定义 余 网 络 Ns = (Grs, u). 


这 里 ， 
€'(v, w) = c(v,w), 


c'(w, v) = —e(v,w), 


SIRE 2.2 《最 小 成 本 流 的 增 量 法 ) 
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c 是 如 下 确定 的 成 本 系数 向 量 ， 


Hv, w) € Bs 由 规则 1 生成 的 时 候 ， 
Cw, v) € Es 


规则 2 生成 的 时 候 . 


网 络 N = (G,s.t,c,u) 


E, 流 值 为 a 的 最 小 成 本 流 记 为 z*. 这 个 时 候 , 余 网 络 We。 里 求 
出 s 到 上 的 最 短路 r (各 边 e 的 长 度 为 cte)), 如 果 根 据 式 (2.11), 
(2.12) 修正 流 a°, 则 得 到 的 流 x^ 是 对 应 流 值 b=a+ 人 A 的 最 小 
成 本 流 . 


假定 网 络 N 没有 成 本 和 为 负 的 回路 . 这 个 时 候 ，z =0 是 
对 应 流 值 a=0 的 最 小 成 本 流 . 于 是 从 x=0 江 始 ,， 反复 利用 
上 面 的 引 理 增加 流 值 . 就 可 以 求 出 对 应 所 要 求 的 流 值 的 最 小 成 
本 流 . 


算法 MINCOST (最 小 成 本 流 ) 
WA: RIS N = (G= (V, E) s teu) URR f" (> 0). 
输出 ， 最 小 成 本 流 r 
第 一 步 (初始 化 )D: z := 0,a:— 0. 
第 二 步 ( 余 网 络 ): 构造 余 网 络 Ne = (Gus teu!) 


第 三 步 (增加 流量 ): 如 果 Ns 没有 s 到 上 的 路 ， 则 结束 计算 - 
N 中 不 存在 有 流 值 为 f^ 的 可 行 流 . E, 求 出 s 到 t 的 
最 短路 n, 计算 (2.12) 的 A. 


(0) 如 果 atA > f, Hg A fa 根据 (2.12) 求 出 
r, rc—at 结束 计算 . zr 是 要 求 的 最 小 成 本 流 . 


(2) 如 果 a-- A < f*, WAR ER (2.12) RE r’, $ gi n 
a :二 4+ 全 后 回 到 第 二 步 . 


1) 对 向 量 z, 记号 x =0 中 示 对 xz 的 所 有 分 量 有 zx(e)==0. 
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该 算法 的 主要 计算 部 分 是 第 二 步 中 N 的 构造 ， 第 三 步 中 
最 短路 r 的 计算 和 z 的 修正 . Ne 的 构造 和 = 的 修正 显然 在 
Olm) 的 时 间 内 可 以 完成 . 在 计算 最 短路 的 时 候 ， 如 果 假 定 ON 
中 不 存在 有 成 本 和 为 负 的 回路 ，。 则 能 够 事先 作 变 换 使 得 wz 里 
A (e) 非 负 (在 此 省 略 其 详细 介绍 0). 因此 , 根据 2.2.1 的 
讨论 ， 在 Om + nlogn) 时 间 内 (用 Fredman 和 Tarjan 的 算法 ) 
TARH r. Æ u 为 整数 向 量 的 前 提 下 ， 因 为 A> 1, 故 可 以 推 
出 第 二 步 和 第 三 步 的 近代 次 数 在 产 BUT. 于 是 ， 整 个 时 间 量 
是 


O((m + nlogn)f") (2.13) 


可 是 ， 这 还 不 是 多 项 式 时 间 . 

为 得 到 多 项 式 时 间 算 法 ,下面 采 用 的 方法 是 对 的 度量 
法 (scaling method). gt 24 U = max. u(e) 满足 2? < U < 20 
(EBR p= log UJ)? 的 时 候 ， 把 u(e) 及 f^ G5 


ue) = [u(e)/277*] 


2.14 
fe = uror] e 


这 也 就 相当 于 ， 把 系数 ule) 和 f" 表示 为 p+1 位 2 进 制 的 时 
候 ， 只 从 大 的 方向 取 &+1 位 来 表示 .度量 法 对 


到 一 0,1,. 
依次 求解 如 此 得 到 的 网 络 NT. = (G,s teu) 中 具有 流 值 
JUO 的 最 小 成 本 流 问 题 ， 


1) 采取 和 后 面 所 述 引 理 24 (ii) — (i) 的 证 明 同样 的 方法 ， 利 用 现在 得 到 
的 到 各 节点 v 的 最 短路 长 ， 可 以 在 O(n) 时 间 内 完成 . 

2) 对 实数 a, la] 表示 不 超过 a 的 最 大 驻 数 同样， 后 面 的 记号 [a] 表示 不 小 
于 a 的 最 小 整数 . 
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二 0 的 时 候 ， 因 为 ao(e) 取 值 0 或 1, 所 以 不 失 一 般 性 可 以 
认为 PO < m. PÈ, R (2.13) 的 时 间 量 成 为 Om? + ranlogn)， 
是 强 多 项 式 时 间 . 一 般 说 来 ,对 N* 得 到 了 最 小 成 本 流 x* 的 时 
E, 可 以 证 明 ， 对 NEH 的 最 小 成 本 流 xz*+! 可 以 通过 以 zk 为 
初始 解 ， 应 用 算法 MINCOST, 在 O(m) 次 和 迭代 里 得 到 . 因此， 
天 一 0,1,..p 的 整个 时 间 量 成 为 


Olm? + mnlogn) log U), (2.15) 


是 输入 数据 长 的 多 项 式 阶 . 


表 2.2 最 小 成 本 庆 问 题 的 算法 的 进展 (这 里 n= 节点 数 ，m = 边 
数 ，C = maxe c(e), U = maxeu(e). RIH, Sln,m,G) 是 最 
短路 问题 的 时 间 量 (比如 ， Ofm n login)), Minm, U) 是 最 
大 流 问 题 的 时 间 基 (比如 ， O(mnlog(in?/m)). Bit, SM. E 
半 部 分 是 多 项 式 时 间 算 法 ， 下 半 部 分 是 强 多 项 式 时 间 算 法 .) 


发 现 者 时 间 量 


Edmonds, Karp (1969)/EK72] 
Röck (1980) 

Goldberg, Tarjan (1987) 
Bertsekas, Eckstein (1987) 
Goldberg, Tarjan (1988)/GT89] 
Tardos (1985) T5851 

Orlix: (1984) 

Galil, Tardes (1986) 

Goldberg, Tarjan (1987) 
Goldberg, Tarjan (1988)! G T89] 
Orlin (1988)/O88] 


O(mlogU S(n, m, C)) 
O(nleg CM(n, m, U)) 
OCmn log(n2/m) log(nC)) 
O(n? log(nC)) 
O(mnlognlog( nC) 


O(nm? log? n. + n?m) 


O(miS(n, m) 

Oln? legnS(n,m)) 
Olam? lognlog(n?/m)) 
O(nm? log? n) 

O(mlog nS(n, m)) 


其 后 不 断 有 对 时 间 量 的 进一步 改良 以 及 强 多 项 式 时 间 算 法 
的 开发 ， 其 发 展 如 表 22 Wim. AFPA, 介绍 最 初 的 强 
多 项 式 时 间 的 Tardos 的 算法 ， 以 及 继 它 之 后 基于 不 同 思想 的 
Goldberg 和 Tarjan 的 算法 . 


2.3 最 小 成 本 循环 流 的 最 优 条 件 


如 2.1.3 节 和 2.1.4 节 所 述 ， 最 小 成 本 流 问 题 和 最 小 成 本 循 
环 流 问题 等 价 ， 所 以 ， 下 面 仅仅 讨论 后 者 . 另外 ， 把 针对 网 络 
N = (Ge 的 问题 模型 (2.9) 作 如 下 变形 . 对 G = (V, E) 的 
各 边 (vow) E 瑟 ,考虑 流 (vw) 和 z(w,v). 假定 成 立 反对 称 性 


(antisymmetry) 


z(w,v) = —z(v,w) (2.16) 
关于 或 本 系数 也 同样 假定 
c(w,v) = —c(v. w) (2.7) 


这 样 一 来 ， 边 (vw) e E EKHE TRR (vw) x 
(v w) S e(o, w) 可 以 写成 
siv, w) € ulv, w) 


(2.18) 
r(w,v) € —l(v, w) 


所 以 ， 如 果 令 zw 可 = 一 Ka), 则 可 以 统一 成 公用 上 界 条 件 的 
表达 方式 . 
de, SERE e={v,w) € E RAAH AW e = (wv) 
也 属于 (把 巨 的 定义 按 这 种 方式 推广 ), 仅 用 上 界 值 把 网 络 
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WA N — (Ccu) 其 结果 ， 最 小 成 本 循环 流 问 题 可 以 写成 


目标 函数 : 二 民 ,eg cle)x(e) 一 ， 最 小 
£M): DeOUT tle) =0 (veV) (流量 守恒 条 件 } 
z(e) < u(e) (e € E) (容量 条 件 ) 
z(e) = -x(e') (ee E) (反对 称 性 ) 
(2.19) 
RE, d 是 < 的 反 向 边 . 目标 函数 中 的 1/2 对 应 的 是 ， 边 的 
二 重 化 ， 原 来 的 边 e 的 成 本 


c(eYe(e) +c(ejzfe] = 2c(ejz(e) 


变 成 2 E. 约束 条 件 的 第 一 式 是 对 从 节点 wv 出 来 的 所 有 边 求 
和 ， 也 即 流量 守恒 条 件 . 


这 个 新 模型 里 面 没有 流 ele) 的 下 界 条 件 . 满足 流量 守恒 条 
件 和 反对 称 性 的 z 称 为 循环 流 . 满足 问题 (2.19) 的 所 有 约束 条 
FEBI x 称 为 可 行 流 . 可 行 流 之 中 使 目标 函数 值 达 最 小 的 x 称 为 
最 小 成 本 流 . 图 2.4 (a) 给 出 循环 流 的 一 个 例子 . 


Coat 22 


ta) f 3E EL ib) SEXRESC, 
1! 香 边 * 上 的 数字 表示 fc]) LARZA SCA A C) 


图 2.4 循环 流 及 其 分 解 


在 说 明 算 法 之 前 ， 先 做 些 准备 工作 . 首先 ， 考 虑 任意 的 循 
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环流 r 把 z 分 解 成 在 几 个 回路 C 0 = 1,2,..., k) 上 循环 流动 
的 流 z^, 注意 它 可 以 写成 


k 
z= Dz (2.20) 
j=l 


这 里 ， 各 zi 可 以 用 常数 a 写成 


二 人 c commu 
o 否则 


另外 ,根据 流 的 反对 称 性 ， 对 每 个 回路 CG;, 把 它 所 包含 的 所 有 
边 反 向 后 得 到 的 回路 C 也 有 流 循环 ， 并 成 立 of = a. 图 
2.4(b) 是 把 同 图 (a) 的 循环 流 分 解 成 回路 C; 后 的 结果 . 这 里 ， 
为 简单 起 见 ， 省 略 了 各 C 的 所 有 边 反 向 后 得 到 的 回路 Cy. 

另外 , 即使 在 模型 (2.19) E, 也 可 以 针对 可 行 流 = 推 广 2.2.3 
的 余 网 络 ， 定 义 为 Ns = (Gach ix, M G = (V, Ea) 的 边 
集合 E. 由 


HE 


e € E, ec E WMA u(e) - z(e) » 0 (2.21) 
决定 ， 对 各 ee Es 有 
u'(e) = u(e) — z(e) 


下 面 导 入 势 函数 (potential function) p : V — R KAEH 
(vw) < 五 的 相对 成 本 系数 (参照 1.3 节 针 对 一 般 线性 规划 的 定 
X), 

iv, w) = c(c,w) + p(v) — p(w) (222) 
plo) 可 以 解释 为 线性 规划 问题 (2.19) 的 对 偶 问 题 (1.7 节 ) 里 的 
对 偶 变量 ， 另 外 ， 由 
(wv) = c(w, v) + p(w) ~ p(v) = —c(v, w) + p(w) — p(v) = —e(v,w) 
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知道 ，5 也 有 反对 称 性 . 进一步 ， 因 沿 着 一 个 回路 C 取 成 本 和 
就 有 
ee) = SEO 


eec eec 

所 以 ， 考 虑 (220), 得 到 下 面 的 引 理 . 

引 理 2.3 (相对 成 本 ) 最 小 成 本 循环 流 问题 (2.19) 里 ,成 
本 系数 c 变换 为 = 后， 最 优 解 及 其 值 无 变化 . 

进一步 ， 下 面 的 引 理 刻 划 了 最 小 成 本 流 的 特征 ， 成 为 以 下 
强 多 项 式 算法 的 出 发 点 . 

引 理 2.4 (MRR) 对 于 最 小 成 本 循环 流 问 题 (2.19) 的 
可 行 流 zx, 以 下 三 条 件 等 价 . 

0 z 是 最 小 成 本 流 . 

() RA Ne 没有 成 本 和 为 负 的 回路 . 

(ii) 对 所 有 的 边 e e E, 存在 有 满足 条 件 


u(e) — z(e} >0= 5e)>0 (2.23) 


Bg 3 p. (这 个 条 件 的 前 半 部 分 意味 着 e 是 Ns 的 边 . 另外 ， 如 
果 e=(v,w) dü e = (oz 两 者 都 是 IN. 的 边 ， 则 和 祖 据 这 个 条 件 
EXA tie) = (e) = 0.) 
AER ()— (i). Æ N. 中 存在 成 本 和 为 负 的 回路 C 的 情况 
下 ， 利 用 
A = min{u(e) ~ z(e)le € C} ( 0) (2.24) 
EUER 修正 为 
zfe) 二 和， e EC 的 情况 下 
(e) = [o —A, (eR Re xe e C 的 情况 下 (2.25) 
zie), 其 它 情况 下 
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很 容易 知道 ，z 也 是 可 行 流 , 而 且 其 成 本 比 z 更 小 . 与 > 是 最 
小 成 本 流 矛 盾 . 

Gi) = (i). Me 中 把 < 看 成 边 长 . 任意 选取 的 一 个 节点 s EV, 
求 出 它 到 所 有 其 它 节点 + 的 最 短路 ， 令 p(v) 为 其 长 度 (N。 没 
有 成 本 和 为 负 的 回路 ， 因 而 可 以 断言 po) 的 存在 性 ). 这 个 时 候 


对 任意 的 (v, w) < Ez, 


Elv, w) = elv, w) + ple) ~ p(w) > 0 


这 是 因为 ， 如 果 plu) + elow) < p(w) 的 话 ， 从 s 向， 前 进 长 度 
piv), 其 后 通过 边 (usw) 到 达 w 就 得 到 比 p(w) 更 短 的 路 , 与 p(w) 
的 定义 相 矛 盾 . 

Gi) — () $ zt 为 最 小 成 本 流 ， 而 且 设 z xoc. 考虑 
=x 一 x, 很 容易 知道 3 是 循环 流 ， 因 而 可 像 式 (2.20) 那样 分 
解 成 几 个 回路 C; 上 的 流 . 满足 a > 0 的 回路 Ci 的 边 e 上 ， 根 
据 z(e) < x" < u(e), 由 条 件 (2.23) 有 zle) > 0, C, 的 全 部 边 的 成 
本 加 起 来 满足 


> Te)ai = > cfejoz >0 

eec, eec, 
在 C, 的 所 有 边 反 向 后 得 到 的 回路 C b, RERE T HRY 
称 性 成 立 有 of = -ai < 0, 但 是 同时 也 考虑 到 的 反对 称 性 的 
话 就 知道 上 式 仍 然 成 立 ， 结果， 


eTr* — Tuc glo. 


再 根据 x* 的 最 优 性 crz* = crz, 因而 xz 也 是 最 小 成 本 流 . 
取 这 个 引 理 的 条 件 Qu) 之 对 偶 ， 可 以 描述 如 下 . 


z(e) < 0 = z(e) = u(e) (2.26) 
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另 一 方面 ， 如 果 z(e) > 0, 除 r(e) < ule) 外 关于 z(e) 无 其 它 条 
fr. 但 是 ， 有 必要 注意 在 e) > 0 的 时 候 ， 关 于 e 的 反 向 边 e 
成 立 (e -a(e)) < 0. 所 以 根据 式 (2.26) 有 (e) = ute 也 就 
是 根据 反对 称 性 成 立 


Tle) > 0 = xle) = —u(e") (2.27) 


2.4 Tardos 的 强 多 项 式 时 间 算 法 


考虑 网 络 N = (Gou) 的 最 小 成 本 循环 流 问 题 (2.19)， 为 
描述 算法 的 方便 ， 导 入 其 有 下 述 性 质 的 边 集 台 了 ES 瑟 对 各 
(oa E 了 ,最 小 成 本 流 z 满足 


z(v,w) = ulv w) 或 者 riv, w) = —u(w,v) (2.28) 


{并且 知道 其 中 到 底 是 哪个 成 立 ). 算法 最 先 从 了 := 8 出 发 ， 先 
代 中 逐渐 扩大 T. 当代 一 巨 的 时 候 ， 所 有 边 e 的 z(e) 被 固定 
T. 这 就 意味 着 求 出 了 最 小 成 本 流 zx, 可 以 结束 计算 . 另外 ， 根 
据 流 的 反对 称 性 ， 如 果 (eu) e T, 由 可 以 假定 (o v) € T. 

为 使 得 上 述 了 的 扩大 成 为 可 能 ， Tardos 的 算法 构造 具有 
下 列 性 质 的 NN 的 近似 网 络 N' = (G, u). 


。 针对 ON” 的 最 小 成 本 循环 流 问 题 在 强 多 项 式 时 间 内 可 和解 . 
* 其 结果 ,至少 找 到 一 条 属于 人 的 新 边 ， 


这 样 一 来 ,最 多 进行 m 次 构造 并 解 出 N' 的 步 野 就 成 立 有 
工 = E, 所 以 必要 的 计算 量 是 强 多 项 式 时 间 - 


61 


由 类 似 2.2.3 的 度量 法 的 思想 来 构造 近似 网 络 N', 其 基础 
是 放松 最 优 条 件 (2.23) 后 的 =- 最 优 (=-optimal) 条 件 : 对 任意 的 
2 < 五 ,可 行 流 z 和 势 p 满 足 


u(e) 一 z(e) > 0= z(e} > ~e (2.29) 


这 里 ，e>0 是 给 定 的 常数 .原来 的 条 件 (2.23) 对 应 于 。=0 的 
情况 . 另外 ， 条 件 {2.29) 也 可 以 换 成 


tle) < —e = z(e) = ufe) (2.30) 


引 理 2.5 (固定 流 的 条 件 ) 对 网 络 N = (Gu) 考虑 e- 最 
优 的 可 行 流 = 和 势 p. 对 某 条 边 e* E E, 如 果 成 立 


ze € —ne (2.31) 


(此 时 ， 根 据 条 件 (2.30), z(e*) = u(e)), 则 任意 的 最 小 成 本 流 zr 
满足 
mr(e*] = ufe”) 

(GERD, 3J e* 及 其 反 向 边 e” 可 以 认定 e*,e” ET) 这 里 ，m 是 G 
的 节点 数 ， 另 外 还 假定 n> 2. 

证 明 考虑 满足 x'(e*) < zfs*) 的 可 行 流 n^. 根据 反对 称 性 ， 
et 的 反 向 边 e” REST. re”) > rle") 以 及 cle") > ne. 因此， 如 果 
考虑 循环 流 r-e, 则 根据 a (e") -zle”) > 0 和 流量 守恒 条 件 ， 
存在 包含 边 e* 的 回路 C 满足 


z'(e)— zle) >0 (ee C) (2.32) 


EXE: 
A = min(z'(e) - z(e)le € C} (>0) 
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H 


把 z EX 
z'e)— ^, eec 

z"(e) = 4 a'(e)-- A, (e iHe e C 
z'(e), 其 它 情形 

根据 定义 ， xz” 也 是 可 行 流 ， 其 成 本 是 


ets" (e) = 37 e(e)s'() - A Del) +a D cle) 


eE ecE ecc ecc 
< Dj etes (e) ~ 24") — (IC| — 0) 
EE 
(根据 式 {2.29) 和 反对 称 性 ) 
€ 3 clejz'(ej - 2A(ne — (n 1)e) < M cle)e'te) 
eE EE 


这 里 |C| 是 C 所 包含 的 边 数 ， 从 这 个 结果 可 以 知道 ，x' 不 给 
出 最 小 成 本 . 


因此 下 面 考虑 如 何 计算 满足 这 个 引 理 条 件 的 x 和 p. 假设 
给 定 了 满足 式 (2.28) 的 菜 个 边 集合 T, 引进 满足 流量 守恒 条 件 
和 yle)=0 (e € T) H) R” 的 子 空间 
Q={yeR"| ^ www)-0(veV)i Bue) = 0 (e€ T)} 
(ee) E-T 
把 成 本 向 量 c 投影 到 Q 并 记 之 为 c*. 这 个 c* 可 以 通过 解 联 立 
方程 组 
2 wm)  p'(o) p(w) 2 0 (v & V) (2.33) 
Q.w)eE-T 
ERAP 之 后 令 
efv, w) t p'(v) pw), (w)eE-T 


*(v,w) = 2.3 
teen) { ww eT c39 
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而 求 出 ， 这 个 时 候 如 果 c (e) = 0 (e € E), 则 根据 引 理 2.3, 对 集 
合 工 的 边 满足 式 (2.28) 的 任意 可 行 流 都 是 最 优 解 . 后 述 算法 根 
据 这 个 条 件 来 结束 计算 . 

RÈ, 如果 存 在 某 个 ee 互 使 得 c"(e] 关 0, 则 用 适当 的 正 数 
LEL c" 后 加 以 正规 化 使 之 满足 


ce Le 


Cmax m nm 


(2.35) 


这 里 ， 一 般 对 以 d(e) (e € E) 为 分 量 的 向 量 4, 采用 记号 
dmax = max(|d(e)) | e€ E} 


即使 把 上 面 的 c" 作为 成 本 向 量 ， 引 理 2.4 的 最 优 条 件 也 不 会 
LS EGER EE 


c(e) = [e"(«)] (ee E) (2.86) 


由 此 得 到 近似 成 本 向 量 e. 

现在， 在 得 到 的 近似 网 络 N' = (G, 里， 固定 工 所 指定 
的 变量 后 ， 使 用 适当 的 算法 ， 和 最 小 成 本 循环 流 = 一 起 求 出 满 
是 最 优 条 件 的 p 利用 这 个 p, 令 


EV, w) = c" (v, w) + p(v) — p(w) (2.37) 


则 上 面 的 z 和 op 在。=1 的 情况 下 满足 e- 最 优 条 件 (230) 其 
BAE, WẸ (vw) < —1, 则 
(v, w) 一 c (v, w) + p(v) — p(w) 
=c" (v, w) + plv) — pw) + (c'(v,w) — c"(v,w)) 
<—-1+1=0 
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根据 N' 里 最 优 条 件 (2.26), 这 也 就 得 出 slo, w) = ulo, w). 
进一步 成 立 下 面 的 引 理 . 
引 理 2.6 (满足 固定 条 件 的 边 的 存在 性 ) 在 上 述 的 六 ,了 
z,p,c',c HB, Xp e 五 -了 成 立 
Te) s -n (2.38) 


WEBB 由 式 (2.37) 的 c" 按 如 下 方式 构造 < 


xo- | le), eeE-T 
o eer 


向 量 Es-c" M ERRE, Leegte) cle) (e) — 0). 其 
原因 是 , 当 e e T 时 , RREN c (e) čle) 同时 为 0, 4 e E E- T 
时 ， 取 和 得 到 


35 dte - cle) (e) 


ecE-T 
= 和 (pl)-po)c Qo, w) (根据 式 (2.37)) 
iwmw)EE -T 
=2y (po $75 mw) 
mi (vw)eE-T 


(根据 式 (2.33) ~ (2.35) DÀ Ree" BE FE XI BR YE) 
依据 向 量 z 一 o 和 c" BE Se Vb, RT ELSE HR [e^] | s ill 这 里 DUI 
是 欧 几 里 得 范 数 

lal = (2 ey? 


ecE 
这 样 一 来 ， 
&yas DIEI (根据 范 数 的 性 贰 ) 
lle l/ vim 2 chax/Ym=n (根据 式 (2.35)) 
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ER, SES (wseEbE-T 有 (w, v) = e" (w,v) > n. IBIR e" 
的 反对 称 性 , 该 式 意味 着 对 某 个 (w,w) € E- TÉ (vw) < -n. 

把 引 理 2.5 用 到 这 个 结果 上 (注意 到 < = D, 可 以 新 辕 定 
gle”) = ufe") 以 及 zle”) = —u(e*) (e" 是 e* 的 反 向 边 ), im e^ 和 
e" 加 到 了 里 .下 面 的 算法 是 进行 这 种 选 代 的 程序 . 


算法 TARDOS (Tardos 的 强 多 项 式 算法 } 
和 输入， 网 络 N = (GL esu). 
输出 ，N 的 最 小 成 本 流 z. 


第 一 步 (初始 化 ): T: 0, x := (任意 的 可 行 流 ). (判定 入 的 可 行 
性 以 及 求 出 可 行 流 可 以 像 2.1.4 所 述 的 那样 ， 作 为 最 大 流 
问题 可 在 多 项 式 时 间 内 完成 . ) 


第 二 步 (修正 成 本 向 量 ); 根据 式 (2.33)~(2.36) 修正 c, ftl cn, 
c” P ec dns (e) =0 (ee E), RIA EIE RE; 现在 的 < 给 
出 最 小 成 本 流 . 和 否则， 对 网 络 N' = (Ge VE T BEAR 
(228) (2.19) 下 解 最 小 成 本 循环 流 问 题 ， 令 得 到 的 流 为 r 


第 三 步 (GT) 对 满足 引 理 2.6 的 条 件 iow) < -ns 的 所 有 
边 (vw), 固定 sv, wr) = ulv,w), cw, v) = 一 wtv,w), 把 边 
(v, w) 和 (w,v) JA T. 回 到 第 二 步 . 


下 面 估计 上 述 算 法 的 时 间 量 . 各 次 迭代 中 主要 的 计算 是 在 
第 二 步 . 为 把 成 本 向 量 变换 成 向 量 c, 首先 必须 解 联 立方 程 
组 (2.83), 因为 有 ?= 个 变量 和 nm 个 条 件 ， 所 以 时 间 O(ns) 是 足 
够 的 RK, IRE IN, ERFT 的 约束 下 求 出 最 小 成 本 流 r 
像 2.1.4 所 述 的 那样 ， 最 小 成 本 循环 流 问题 和 最 小 成 本 流 问 题 
等 价 ， 同 时 考虑 到 cha = O(n m) (R (2.35) 和 (2.36)), WEF 
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用 表 2.2 的 第 五 个 最 小 成 本 流 算法 (Goldberg 和 Tarjan), 则 所 要 
的 时 间 是 


O(mn logn log{(nchas)) = O(mnlognlog n?m?) = O{mn log? n) 


除 此 之 外 的 计算 显然 在 O(m +n) 的 时 间 内 可 以 完成 . 第 二 步 和 
第 三 步 的 每 次 选 代 中 了 严格 增 大 ， 所 以 最 多 有 mm 次， 因而 ， 
整个 时 间 量 可 以 估计 为 


O(nm? log? n + n?m) (2.39) 


这 是 强 儿 项 式 时 间 . 
定理 2.1 (TARDOS 的 强 多 项 式 性 ) 算法 TARDOS 在 强 
多 项 式 时 间 内 正确 解 出 最 小 成 本 循环 流 问 题 . 


2.5 Goldberg 和 Tarjan 的 强 多 项 式 时 间 算 法 


这 里 介绍 针对 最 小 成 本 循环 流 问 题 (2.19) 的 另 一 个 强 多 项 
式 时 间 算 法 ， Goldberg 和 Tarjan 的 成 果 [GT 89]. 基于 引 理 2.4 
的 条 件 Gi), 只 要 你 网 络 Ns 中 存在 有 成 本 和 为 负 的 到 路 C. 按 式 
(2.24), (2.25) 对 沿 者 C 的 流 进行 量 仅 为 4 的 修正 ( 称 之 为 C 的 
NB PR HR IE (cancel). 这 个 算法 就 是 反复 这 种 删除 操作 的 方法 . 其 
FAR, MICRA OE C 的 ) 平均 成 本 


re = Y. «yc (2.40) 


eec 


达到 最 小 的 回路 . RE, |C 表示 C 的 边 数 . 


算法 GT (Goldberg 和 Tarjan 的 强 多 项 式 时 间 算 法 ) 
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输入 : 网 络 N = (Geu) 
输出 ，N 的 最 小 成 本 流 x. 


第 一 步 (初始 化 ): z := (任意 的 可 行 流 )，( 参 照 算法 TARDOS 
(24 $) 中 第 一 步 的 评论 . ) 


第 二 步 ( 余 网 络 ); 构造 余 网 络 Ne = (G = (V E hcu) 如果 
N 中 没有 成 本 和 为 负 的 回路 则 结束 计算 ， 如 果 有 这 样 的 
回路 则 进入 第 三 步 . 


第 三 步 (回路 的 删除 ) 求 出 使 式 (2.40) 的 平均 成 本 nc 达 最 小 
的 加 路 C, 按 式 (2.24), (225) 进行 C 的 删除 操作 ， 把 得 到 
的 流 z' 作为 > 重新 回 到 第 二 步 . 
下 面 利用 包 个 引 理 证 明 算法 GT 的 选 代 次 数 可 以 控制 在 强 
多 项 式 时 间 内 ， 其 结果 ， GT 成 为 强 多 项 式 时 间 算 法 . 
前 节 式 (2.29) 的 e- 最 优 性 (这 里 ，。 > 0) 是 关于 可 行 演 = 
MI p 的. 如 果 对 于 z, 存在 某 个 势 p, 使 得 对 任意 的 ee 五 成 立 


ule) —z(e) >0 (了 Bee E.) mde)» -e (241) 


则 称 z 为 e- 最 优 . 这 里 ， E, 是 余 网 络 W。 的 边 集合 . 

引 理 2.7 (e- 最 优 流 的 最 优 性 质 ) ”假定 网 络 N = (Geu) 
的 成 本 系数 c(e) 全 部 是 整数 ,这 个 时 候 ， 如 果 可 行 流 z 对 某 个 
< 1/n 为 6- 最 优 ， 则 xz 是 最 小 成 本 流 ， 这 里 ，n 是 G 的 节点 
数 . 

证 明令 C 为 余 网 络 N, 的 任意 的 回路 . 根据 x 的 e 最 优 
TER (注意 Ne 的 所 有 边 e 成 立 a(e) - ele) > 0), 沿 着 C 的 成 本 
满足 

Pee) = Y gfe) > -Cle 2 ~ne > -1 


ecc eec 
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因为 Lee 是 整数 ， 也 就 有 
> ele) 20 


ecc 
Wt N. 没有 成 本 和 为 负 的 回路 . 根据 引 理 24 (i) x 是 最 优 的 . 
下 面 。 对 可 行 流 z, 把 使 = 成 为 =- 最 优 的 最 小 se(> 0) 记 为 
e(r). 另外 ， 在 余 网 络 wz 里 ， 回 路 的 平均 成 本 nc 的 最 小 值 记 
为 u(x). 两 者 之 间 成 立 下 面 的 有 趣 关 系 . 


引 理 2.8 (c 和 u 的 关系 ) ”可 行 流 zx 不 是 最 优 的 时 候 . 成 
38 e(z) = 一 A(z)(> 0). 
证 明 设 实现 ce(s) 的 势 设 为 p, 根据 定义 ，p 是 使 


omin, (ev, w) + p(v) — p(w) 


达 最 大 者 . RX PF p 的 问题 可 以 写成 下 面 的 线性 规划 问题 ， 得 
到 的 最 优 值 是 e(r). 


目标 函数 : -e — 最 大 


(2.42) 
HREP -e < elo, w) + ple) - p(w) (vw) € E) 
该 问题 的 对 偶 问 题 (参照 1.7 节 ) 是 
目标 函数 : 了》 ceee) — 最 小 
LIIOM 
约 划 条件: Bo ze- $ ze)=0 (vev) 
eeOUTs(o) eeINz() (2.43) 
> rte)=1 
e€ E, 


r(e)z 0 (e€ E,) 
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这 里 ， OUTz(e) 和 INz(z) 分 别 表示 wz 里 流出 vb 和 流入 v 的 
边 集 ， 如 果 不 考虑 约束 条 件 E zx(e) = 1, 则 该 问题 成 为 nz 的 在 
R (2.9) 意义 下 的 最 小 成 本 黎 环 流 问 题 之 特别 情形 ， TE, 
IÈ (2.20) 所 述 的 那样 ， 问 题 (2.43) 的 可 行 解 可 以 分 解 成 在 几 个 
BER C; 上 循环 流动 的 流 2. 但 是 , 问题 (243) 里 ,没有 给 出 各 
边 的 流 z(e) 的 上 界 值 ， 所以, 不 失 -- 般 性 可 以 认为 最 优 解 是 仅 
在 一 个 回路 C 上 循环 流动 的 流 . 根据 约束 条 件 


$ z(e) =1 


eec 


这 种 流 z 成 为 
LE PH 
0， eg C 的 情况 下 
目标 函数 满足 条 件 
> cle)z(ey = > eleele) = $7 «(e)/lCl = nc 


e€ E, eec eec 
ERE, C 是 使 平均 成 本 pc 达 最 小 的 回路 . 其 结果 ， 根 据 线 
性 规划 问题 的 对 偶 定 理 (定理 1.5), 主 问 题 (2.42) 的 最 优 值 与 对 
偶 问 题 (2.43) 的 最 优 秆 一 致 、 也 即 ， <(z) = — (x). 


ASh, AAIE nc 达 最 小 的 回路 C 满足 如 下 两 条 件 
pla) = Y cle) IC! = 并 zeylci= -e(2) 
eec eec 
z(e) 2 —e(x) (e € C) {问题 (2.42) 的 约束 条 件 ), 
把 它们 结合 起 来 就 知道 有 
(e) = —-e(z) (ec C) (2.44) 
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算法 GT 在 每 次 迭代 中 求 出 Mz) = —e(z) ( 引 理 2.8). 根据 
下 面 两 个 引 理 知道 这 个 s(z) 以 某 种 速度 减 小 下 去 . 


8138 2.0 ( s(z) 的 非 增加 性 ) 算法 GT YES ob EIER 
操作 后 ， <(z) 是 非 增加 的 
证 明 在 进行 删除 操作 之 前 的 时 刻 ， 实 现 s(z) 的 势 记 为 p. 
也 即 ， 对 所 有 的 (o, w) < Es, 
zlew) = ctv, w) + p(v) — piw) > —e(z) (245) 
把 对 C 进行 删除 操作 之 后 得 到 的 流 记 为 z', C 至 少 有 一 条 边 达 
到 饱和 因而 不 属于 Er. 与 此 同时 ,仅仅 限于 把 C pit (v,w) 
反 向 之 后 的 边 (w,v) 作为 Er 中 新 入 边 (一 般 有 多 条 ). 在 C 上 
因 成 立 式 (2.44), 故 对 于 这 种 边 Qu, v), 根据 反对 称 性 ， 


Cw, v= cw v) + piw) 一 po) 一 <(z) (> 0) 
于 是 ， 对 于 所 有 的 (vw) € E», R (2.45) 成 立 ， 这 就 意味 着 
e(z’) < e(a) 再 把 这 个 ”重新 看 成 > 就 知道 引 理 成 立 . 


引 理 2.10 (e(z) 的 减少 率 ) 算法 GT 里 , 第 三 步 的 删除 操作 
进行 m 次 后 ， 成 立 


e(z!) < (1 — /mels) 
这 里 ，z 是 迭代 前 的 流 ， =' m 次 送 代 后 的 流 . SR, n 
示 网 络 N 的 节点 数 ，m 是 边 数 . 
证 明 利用 迭代 前 实现 ela) HII p, 记 


E(u, w) = e(v, w) + p(v) - piw) 
L 次 选 代 后 ， 流 要 变化 ,各 次 迭代 中 使 平均 成 本 最 小 的 回路 C 
里 条 件 


RM 


z(e) «0 (ee C) 
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并 不 恒 成 立 . 为 此 ， 考 虑 下 面 两 种 情况 . 

(a) m 次 迭代 中 ， 使 平均 成 本 达 最 小 的 回路 C 的 边 e 全 满 
Æ oc(e) < 0. 这 种 情况 下 ， 像 引 理 2.9 所 述 的 那样 ， 每 次 选 代 中 
满足 ee) < 0 的 边 至 少 有 1 条 被 排出 余 网 络 ， 另 外 ， 新 加 入 的 
边 全 满足 c(e) > 0, 所 以 mm 次 适 代 后 对 所 有 的 边 ee EL 成 立 


ze)>0 


也 就 是 <(z) = 0, 引 理 成 立 . 

(b) 在 拖 次 迭代 后 ， 某 条 边 e" cC 满足 z(e*) > 0. 考虑 最 初 
出 现 这 种 情况 的 时 刻 , 记得 到 的 流 为 cU. 因 (根据 引 理 2.9 的 证 
BA) 所 有 的 边 ce e C 满足 le) > elr), 其 平均 成 本 是 


> stejjlcl(= -elz"), 根 据 引 理 2.8) 
eec 
> —(1 ~ 1/[C])e(2) > -( - 1/2)e(z) 


ERE, e(z’) € ele") < (1 — 1/nye(z). 
为 把 这 些 结果 与 算法 GT 的 强 多 项 式 性 联系 起 来 ， 引 进 一 
个 新 定义 . 称 边 e 是 < 国定 的 (e-fixed), 如 果 在 任意 的 e- 最 优 
的 可 行 流 = 里。 z(e) 取 同 一 值 . 特别 是 ， 对 最 优 流 z* 也 成 立 
z(e) = z'(e). 下 面 的 引 理 推广 了 前 节 的 引 理 2.5. 
5138 2.11 (e- 固定 的 充分 条 件 ) 对 某 个 。> 0, 设 可 行 流 = 
和 势 了 是 =- 最 优 的 .这 个 时 候 ， 如 果 对 边 e" e E RE 


zer) < —2ne 


Wy e* 是 e- 固定 的 . 
WEBB 根据 e- 最 优 的 定义 (2.29) 或 者 式 (2.30), 边 e* 上 成 立 
z(e") = x(e*). 和 引 理 2.5 的 证 骨 一 样 ， 考 虑 满足 z'(e*) < rle) 
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的 任意 可 行 流 xz’, 证 明 a 不 是 e- 最 优 的 . 像 引 理 2.5 的 证 明 那 
H, RES et 的 反 向 边 e”, 满足 式 (2.32) 的 回路 C, 有 


D Ele) zele”) — (| — 0e. (z 和 p 的 e- 最 优 性 ) 


EC 


22ns—(n—1d)e tz(e”) 的 条 件 和 反对 称 性 ) 


>ne 


此 ， 如 果 考 虑 C 的 反 向 后 的 回路 C", (根据 式 (2.32)) C" 的 所 
有 边 全 属于 余 网 络 Ns, 特别 是 e eC. 而 且 ， C 的 平均 成 本 
满足 


$7 secl = - Y^ e(ey/Ic] < ne/lC| < ~e 

Cgc eec 
这 表示 =' 不 是 =- 最 优 的 . 

如 果 在 算法 GT 的 某 个 时 刻 ， 边 e e) 固定 的 ， 则 在 其 

后 即使 > 变化 ， 因 <(z) 的 非 增加 性 ( 引 理 2.9), 边 e fE 8 e(z)- 
固定 的 . 因此 ， 如 果 所 有 的 边 都 是 e(z)- 固定 的 。 则 可 以 把 这 个 
时 候 的 > 作为 最 小 成 本 流 输出 ， 结 束 计 算 . 下 面 的 引 理 告诉 我 
们 ,到 这 一 步 所 需要 的 选 代 次 数 是 强 多 项 式 阶 . 这 里 ， 证 明 中 
用 到 了 对 ”>2 的 下 述 不 等 式 . in 是 自然 对 数 . 


G ~ /ame < 1/27 


引 理 2.12 (GT 的 选 代 次 数 ) 算法 GT 的 第 二 步 和 第 三 步 
E O(nm?logn) 次 造 代 之 后 结束 计算 ， 
证 明 k—nmnn-d] 证 明 在 连续 大 次 迁 代 后 ， 至 少 有 
一 条 新 边 成 为 =(z)- MEN. 记 这 样 的 大 次 选 代 开始 时 的 流 为 
c. 结束 时 的 流 是 e. 根据 引 理 2.10, 
elz’) S (1 — 1/n)" rnt)e(s) < e(z)/2n 
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记 第 一 次 挝 代 所 选取 的 回路 为 C, 根据 (2.44), 任意 的 es C R 
足 
(e) = -<(z) € 一 2netz ) 


因而 根据 引 理 211, 在 k 次 近代 结束 的 时 候 ，e 是 elr) ME 
的 ,而且 ， 第 一 次 迭代 中 r) 被 修正 过 ， 所 以 eeC 在 当时 还 
未 被 e(x)- 固定 . 结果 ， XR k XOETUER d ibit m 次 重复 后 ， 
m 条 边 全 被 <(z)- 固定 ,计算 可 以 结束 . 于 是 ， 造 代 的 次 数 最 
多 是 mk-O(nm?logn). 

为 估计 算法 GT 的 整体 计算 量 ， 除 迭代 次 数 之 外 ， 还 必须 
知道 各 步骤 所 要 的 时 间 . 余 网 络 wz 的 构造 和 回路 的 删除 操作 
显然 在 O(m) 时 间 内 可 能 完成 (如 果 下 点 工夫 ,还 可 以 更 快 些 ), 
时 间 量 上 重要 的 是 在 Ns 中 找 出 使 平均 成 本 最 小 的 回路 的 河 题 
(其 结果 ,也 可 以 判定 Ns 中 是 否 存 在 成 本 和 为 负 的 回路 ) 以 下 
介绍 解 这 个 问题 的 一 个 算法 ， 并 证 明 它 可 在 Omn) 时 间 内 完 
成 . 

Jp pO m. BUE ON. 强 连通 ( 即 ， 对 任意 的 2 节点 vw, 
存在 有 通过 它们 的 回路 ). 如 果 不 是 强 连通 ， 则 只 要 对 每 个 强 
连通 部 分 分 别 利用 以 下 的 算法 即 可 ， 人 和 任意 选取 Nz 的 一 个 节点 
seEey, 对 非 负 整数 下 和 节点 ww 定义 


Fele) = (正好 使 用 类 条 边 从 * Eik v 的 路 的 成 本 之 最 小 值 ) 


这 里 的 路 允许 两 次 以 上 通过 同一 顶点 . 如 果 使 用 点 条 边 无 法 从 
sj v, U Few) = 

31% 2.13 "m 的 计算 法 ) 余 网 络 N: 里 , 平均 成 本 最 小 
的 回路 的 值 k(x) 由 


Hz] = mip max | (Falo) — FeCv))/(n — k} (2.46) 


EV oxkzn 


T4 


给 出 . 
证 明 先 假定 n(r) = 0, 在 这 种 情况 下 要 证 明 上 式 右边 等 于 
0. p(x) — 0 的 情况 下 不 存在 成 本 和 为 负 的 回路 ， 因而 ， 存 在 
s 到 各 veV 的 最 小 成 本 的 路 . 记 这 种 最 小 戚 本 值 为 c*(v). B 
外 ， 最 小 成 本 路 上 不 必 两 次 以 上 通过 局 一 节点 ， 所 以 ， 
c'(v) 9 min Felo) 


OckEn-1l 
F.(v) 2 e'(v), 


于 是 ， 


Fav) — e'(v) = o, [F&(v) — Fk(v)) 20 
也 就 得 到 
KG) - FG (n — k)] > 0 


odesa- 1 


为 证 时 这 个 式 子 是 等 式 ， 即 


apax [U () — FC (n - k) = 0 (2.47) 
只 要 证 明 存 在 满足 Falo) = c'(v) 的 ve V. 根据 很 定 x(z) = 0, 
存在 有 成 本 和 为 0 ( 即 平均 成 本 为 0) 的 回路 C. 像 图 2.5 那样 ， 
Ww C 的 一 个 节点 ，Plw) 是 具有 成 本 值 c"(u) 的 从 s 到 zw 
的 路 。 则 继 Poo) Zo fa HS C 环绕 几 周 后 到 地 的 路 P'(w) 也 是 到 
Ak w 的 最 小 成 本 路 . 可 以 假设 P(w) Bah Ses n 以 上 . 因此 , 如 
果 PA{w) EA s 出 发 经 过 条 边 到 达 w, 则 Foul) = ch (w) (如 
ROFL(u!) > tw), 把 P'(w) 的 最 初 的 rn 条 边 形成 的 部 分 用 到 
w 的 最 小 成 本 路 替换 后 ， 得 出 到 达 w 的 具有 更 小 成 本 的 路 ， 
SATE. ) 把 这 个 看 成 上 面 的 v 即 可 . 


了 5 


Pow) 


Piw) 


图 2.5 引 理 2.13 的 证 明 


其 次 , 为 考虑 KMz) 关 0 的 情况 , 利用 常数 a 把 成 本 系数 cle) 
替换 为 


ce'(e) 2 c(e) - a (e € E) 


其 结果 ， pe) RD a, Fal) 减少 na, Filo) 减少 ka, (Fal) — 
Fi(v))/(n — k) 减少 @ 也 即 式 (2.46) 的 两 边 都 减少 a, 所 以 如 果 
关于 成 本 系数 dle) 式 (2.46) 成 立 的 话 、 对 原来 的 成 本 系数 式 
(2.46) 的 证 明 也 就 完成 了 . 因此 ， 如 果 利 用 a = (x) 修正 成 本 
系数 ， 则 新 的 成 本 系数 显然 成 立 u(x) = 0 所 以 式 (2.47), 也 即 
(2.46) 成 立 . 

Falu) 的 计算 可 以 从 


F(s} =0, Fo(v)- co (ve V (s) (2.48) 
开始 ， 通 过 递 推 式 
Fi) = mig, (Fi-i(w) + e(w,v)) (2.49) 


Bk-L2,... n 的 顺序 解 出 (这 是 从 所 谓 动态 规划 的 思想 得 
到 的 结果 ). 必要 的 时 间 量 是 O(mn). 一 但 求 出 所 有 的 Fele), 式 
(2.46) 的 右边 可 以 在 ORS O(mn)) 时 间 内 直接 计算 出 .为 具 
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体 求 具有 平均 成 本 p) 的 回路 C. 对 实现 式 (2.46) 的 ”和 k, 
求 出 从 s 到 * 的 由 m 条 边 组 成 的 最 小 成 本 路 P(v) (只 要 记忆 计 
算式 (2.49) 时 实现 最 小 值 的 边 Qo, v). 即 可 构成 ). 输出 其 后 半 的 
n -上 条 边 形成 的 回路 ( 沿 着 引 理 2.13 的 证 明 思 路 可 以 知道 这 
是 同 路 ) 即 可 . 为 此 需要 的 时 间 量 是 O(n). 

概括 上 面 的 讨论 ， 可 以 得 到 下 面 的 定理 

定理 2.2 (GT 的 强 多 项 式 性 ) 算法 GT 正确 解 出 最 小 循环 
流 问 题 (2.19), 迭代 次 数 是 O(nm?logn), 时 间 量 是 O(n?m? logn), 
也 即 强 多 项 式 时 间 . 

为 进一步 减少 时 间 量 ， Goldberg 和 Tarjan [GT 89] 考察 了 
有 组 织 地 引进 利用 容易 计算 的 回路 , 减少 最 小 平均 成 本 回路 计 
算 次 数 的 算法 . 其 结果 ,成 功 地 使 算法 具有 精炼 的 数据 结构 并 
使 时 间 量 减 少 到 O( nm? log? n). 4& 2.2 节 中 表 2.2 所 示 的 那样 ， 
这 是 到 现在 为 止 知道 的 最 快 的 算法 之 一 


2.6 文献 及 其 他 话题 


作为 网 络 景 优化 问题 ， 本 章 叙 述 了 最 短路 问题 最 大 流 问 
题 ， 最 小 成 本 流 问题 (以 及 与 之 等 价 的 最 小 成 本 循环 流 问 题 )- 
对 除 此 之 外 的 匹配 问题 , 最 小 树 问题 等 各 种 问题 也 都 有 广泛 研 
究 . 下 章 讨论 的 旅行 商 问 题 也 是 有 代表 性 的 网 络 最 优化 辣 题 . 
讨论 这 些 各 种 各 样 问题 的 书 已 经 出 版 了 相当 多 . 这 里 ， 除 列举 
经 典 的 Ford Fulkerson [FF 62] 外 , iim E BEER, WE, 大山 [IFO 
86], Tarjan (T83], 进一步 ， Ahuja, Magnanti, Orlin [AMO 93] 等 . 
[T83] 详细 介绍 了 算法 高 速 化 时 有 用 的 数据 结构 . [AMO 93] 在 
了 解 关于 这 些 话题 的 最 近 成 果 的 广泛 应 用 方面 很 有 用 . 

2.2.1 的 针对 最 短路 问题 的 戴 克 斯 特 拉 法 是 Dijkstra [D59] 在 
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1959 提出 的 .文献 [IF91] 给 出 了 具体 算法 . 另 有 其 它 最 短路 的 
高 速算 法 ， 比 如 Imai Iri [II 84]. 

最 大 流 问题 也 是 这 个 领域 的 经 典 话 题 , 但 是 ， 像 表 2.1 所 示 
的 那样 ， 最 近 算 法 有 显著 的 进步 ， 2.2.2 给 出 Edmonds 和 Karp 
[EK 72] 的 强 多 项 式 时 间 算 法 的 概要 ， 其 它 算 法 的 讲解 在 上 述 
的 [T83] [AMO 93] RAAI [1 89] 等 里 有 . 

关于 最 小 成 本 流 问题 ， 以 2.4 节 Tardos [T 85 以 及 2.5 节 
Goldberg 和 Tarjan [GT 89] 的 算法 为 中 心 ， 稍微 详细 地 介绍 了 
强 多 项 式 时 间 算 法 . 成 为 其 基础 的 2.3 节 的 最 优 条 件 等 来 源 于 
线性 规划 的 对 偶 理 论 ， 这 已 在 Ford 和 Fulkerson [FF 62] 里 作 了 
详细 讨论 . Tardos 的 算法 的 解说 在 永 持 [N 90] 里 也 有 . 除 此 之 
外 . 表 2.2 中 ，Tardos 的 算法 的 对 偶 版 本 ， Fujishige [F86], 以 及 
时 间 量 最 少 的 算法 之 一 Orlin 算法 [O 88] 也 是 值得 注意 的 . 另 
外 ,， 表 2.1 和 表 22 中 的 年 份 所 表示 的 是 最 初 发 表 的 年 份 ,与 文 
献 的 年 份 未 必 一 致 . 2.5 节 用 到 的 求 最 小 平均 成 本 的 回路 的 算 
法 引 自 Karp [K78]. 另外 ， 解 最 小 成 本 流 问题 时 ， 在 实用 的 意义 
上 ， 即 使 现在 ,用 得 最 广 的 还 是 基于 线性 规划 的 算法 . 这 些 算 
法 很 快 ， 因 有 现成 程序 (比如 [IF91]), 很 容易 利用 . 


78 


第 3 章 依据 多 面体 方法 的 组 合 优化 


作为 求 组 合 优化 问题 精确 解 的 方法 ， 基 于 多 面体 方法 的 分 
BAERI AEH. 该 方法 基于 由 可 行 域 定义 的 整数 多 面 
体 ， 解 由 其 边界 面 构成 的 线性 规划 问题 . 这 种 方法 在 构造 线性 
规划 问题 时 结合 了 分 枝 定 界 法 . 本 章 以 取得 巨大 成 功 的 旅行 商 
问题 为 具体 例子 ,介绍 其 全 煞 . 


3.1 多 面体 方法 


组 合 优化 问题 包括 ， 有 关 图 论 和 网 络 的 各 种 问题 ， 求 出 机 
械 作 业 的 最 优 顺序 的 排序 问题 , 决定 设施 最 优 地 点 的 选 址 问题 
等 为 数 众 多 的 有 重大 实用 价值 的 问题 . 但 是 , 在 计算 复杂 性 理 
论 (参照 本 讲座 第 三 卷 「 离散 结构 ], 第 四 卷 「 计算 的 理论 | 等 ) 
意义 下 ， 其 中 太 索 数 是 极其 困难 的 问题 (具体 说 来 是 NP 困难 
的 ), 对 所 有 问题 的 实例 恒 在 多 项 式 时 间 内 解 出 被 认为 是 不 可 能 
的 - 


然而 ， 如 果 不 是 规模 特别 大 的 问题 实 合 ,或 者 虽然 规模 大 
但 不 是 特别 别扭 的 问题 ， 实 用 上 是 可 应 付 的 情况 也 不 少 . 为 了 
达到 这 个 目的 ， 人 们 在 尝试 以 下 若干 方法 

(a) 把 给 定 的 问题 模型 化 为 整数 规划 问题 ， 利 用 针对 一 般 
整数 规划 的 算法 求解 ; 

(b) 有 效 地 利用 对 象 问 题 的 特殊 性 ， 利 用 针对 该 问题 特殊 
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化 后 的 整数 规划 算法 求解 ; 
(c) 不 化 为 整数 规划 问题 而 直接 通过 分 枝 定 界 法 解 求解 . 
在 这 些 方法 之 中 , 关于 最 近 很 引 人 注 目的 多 面体 方法 (poly- 
hedral approach) 不 断 有 重大 成 果 出 现 . 这 个 方法 是 ， 把 有 待 求 
解 的 问题 模型 化 为 整数 规划 问题 之 后 ,注意 其 整数 解 的 凸 包 形 
成 的 整数 多 面体 ， 解 由 其 边界 面 所 定义 的 线性 规划 问题 .这 章 
在 本 节 说 明 一 般 的 思想 之 后 ,下 一 节 开 始 对 旅行 商 问题 作 详细 


m 
TR. 


首先 ， 假 定 对 象 问题 已 模型 化 为 下 面 的 整数 规划 问题 (in- 


teger programming problem)!? 


P) RRAS: Tr — 最 小 
HRR: As Eb x0 (3.1) 
t; : 整数 (j= 1,2,...,N) 


这 里 ，c 是 N 维 成 本 向 量 ，4 以 及 5 是 MxN 以 及 Mx1l1 的 
系数 矩阵 ， 右 边 的 0 是 0 元 素 组 成 的 NN HEB sE NEN 
向 量变 量 . 


E LOIITIM 


图 3-1 Asmi PAER SETH gQ (o 是 整数 可 行 解 } 


——————- 
D 因 所 有 变 县 都 是 整数 变量 ， 严 格 说 来 是 全 整数 规划 问题 . 另外 ， 也 有 仅仅 
一 部 分 变量 为 整数 变量 的 混合 整数 规划 问题 . 
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如 果 在 问题 (IP) 中 除去 变量 为 整数 的 条 件 ， 就 得 到 第 1 章 
讨论 的 线性 规划 问题 . 把 它 记 为 (LP). (LP) 的 可 行 域 是 N OH 
实数 空间 的 西 多 面体 (polyhedron)) , 把 它 记 为 P. 图 3.1 给 出 
N = 二 2 的 情况 下 的 例子， 三 条 实 线 (其 可 行人 出 用 箭头 表示 ) 连同 
条 件 zj 之 0 的 五 个 一 次 不 等 式 的 共同 部 分 给 出 了 P. 问题 (IP? 
的 可 行 解 是 P 内 的 整数 点 (图 3.1 的 小 白 图 )- 这 些 整数 点 的 凸 
包 称 为 (IP) 的 整数 多 面体 (integer polyhedron), 记 为 Q@. 图 3.1 
浓 阴 影 的 部 分 与 此 对 应 ，.@ 也 是 凸 多 面体 . 

给 定 凸 多 面体 @ E RN 的 时 候 ， 一 次 不 等 式 Fr < lo (这 
m, pe RN, Io € R) 如 果 满 足 


QG {ze RN |f» slo} 
则 称 之 为 有 效 (valid) 的 . 对 有 效 的 一 次 不 等 式 Tr slo, ® 
F = {z € R“ |£ =o} nR (3.2) 


(注意 王 的 条 件 是 等 式 ) F (或 者 对 应 的 不 等 式 Frs) KAR 
的 面 (face). 如 果 下 进一步 满足 


F£8 以 及 FW (3.3) 


则 称 为 KIEL (proper face). 对 真 面 F, 如 果 不 存在 满足 下 ZF 
的 真 而 严 (也 就 是 ， 如 果 下 是 极 大 的 )， 则 称 下 (或 者 给 出 它 的 
不 等 式 ) 为 Q 的 边界 面 (facet). 图 3.1 EE ET ELI ERES 
cm. AGRBALRLECR RR. B 是 真 面 但 不 是 边界 面 .。 C 是 
边界 面 . 


1) $8 12 节 第 8 页 的 脚注 1- 
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一 般 把 不 等 式 /Tz < to 仅 用 其 系数 向 量 表示 为 (Hlo) 把 所 
有 给 出 O 的 边界 面 的 不 等 式 (09) 的 集合 记 为 Co, 其 阶 数 |Lel 
EARM. 

把 话题 转 回 到 式 (3.1) 的 问题 (IP). 如 果 可 以 求 出 对 应 于 该 
(IP) 的 £o, 则 可 把 (IP) 写 为 


目标 函数 ， crz — 最 小 


(24) 
HARR: rsio, (Lle)e£Q) 


这 个 问题 里 没有 整数 条 件 ， 是 单纯 的 线性 规划 问题 . EÈ (3.1) 
的 整数 规划 问题 (IP) 转化 为 式 (3.4) 的 线性 规划 问题 来 解 的 方 
法 称 为 多 面体 方法 . 

为 了 使 多 面体 方法 成 功 ， 必 须 解 决 下 述 两 个 问题 . 


* 因 整 数 包 面体 8 是 由 原来 的 钙 多 面体 尸 间接 定义 的 ， 故 
生成 Ce (或 者 它 的 一 部 分 ) 的 算法 是 必要 的 . 


t 即使 生成 了 Co. 在 很 多 情况 下 |C 很 大 ， 因 此 ， 把 它们 
全 作为 约束 条 件 来 解 问题 (3.4) 的 做 法 缺乏 实用 性 . 


本 章 以 下 利用 旅行 商 问 题 的 例子 稍微 详细 看 一 看 如 何 克 服 
这 些 问 题 . 


3.2 旅行 商 问题 的 多 面体 方法 


3.2.1 旅行 商 问 题 及 其 模型 化 

作为 困难 组 合 优化 问题 的 代表 而 知名 的 旅行 商 问题 (trav- 
eling salesman problem), 是 求 出 经 过 给 定 的 n 个 点 的 最 短 巡回 
路 (tour) 的 问题 . 记 Kn = (V,E) 为 具有 个 节点 的 完全 无 
向 图 (也 即 ， |V| = 而 且 巨 由 连接 所 有 节点 对 的 = (3) 条 
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边 构成 ), Aid ec ED IKE ce) 的 时 候 ， 在 仅 一 次 通过 所 有 
节点 而 名 到 出 发 点 的 回路 ( 称 它 为 巡回 路 或 者 哈密 尔 顿 回路 
(Hamiltonian cycle)) 中 ， 计 算出 最 短 者 . 

另外 ,这 里 的 讨论 以 无 向 匿 为 前 气 ， 对 边 (v w) 和 边 Qe v) 
不 加 区 别 , 特别 是 c(v,w) = c(w, v) (以 有 向 图 为 前 提 的 旅行 商 问 
题 也 经 常 被 讨论 , 但 是 本 章 不 予 处 理 ), 对 节点 的 子 集合 W CV. 
采用 记号 


il 


E(W) = ((v,w)€ E| v, we W} (3.5) 
$5. 用 ze Re 表示 一 个 m 维 实数 向 量 ， 其 分 量 le) 对 应 于 
E lih e. 进一步 ， 对 边 的 子 集 合 下 ESE, 记 

z(F)= Y zle) (3.6) 
eeEF 
给 定 巡 回路 > 的 时 候 ， 定 义 r 的 特征 向 量 GT e RP 
nao J L es 的 情况 下 

Flo eem 
Kn 的 巡回 路 是 从 点 wm eV 开始 ， 以 任意 的 顺序 通过 其 它 的 
一 1 个 节点 v vss ,vn 而 得 到 ,所 以 合 起 来 存在 (n D! T. 
所 有 这 些 向 量 的 凸 包 

Q" = conv{zr € RE | 7 是 KK 的 巡回 路 } (3.7) 
就 是 旅行 商 问题 的 整数 多 面体 . 
各 循环 路 r 里 ， 一 个 节点 连接 着 两 条 边 ， 所 以 知道 Q^ 包 
d EX BE l 
Q} ={re RE | Ax=2,0<z<1} (3.8) 
E, 这 里 ，nxm 矩阵 4 是 Kn 的 邻接 矩阵 (incidence matrix), 
A 的 各 行 对 应 节点 v c V, 各 列 对 应 边 e € E, v 是 e 的 端点 时 
(we) 的 元 素 是 1, 否则 是 0. 另外， 式 (3.8) 里 的 0,1,2 分 别 是 以 
标量 0, 1, 2 为 所 有 元 素 的 (相应 维 数 的 } RM 因为 一 般 很 容易 
判定 它们 是 向 量 还 是 标量 ， 故 在 记号 上 不 特地 加 以 区 别 . 
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为 简便 起 见 把 整数 多 面体 @" 的 所 有 边界 面 的 集合 Co。 记 
为 CV Bp, 
Q” ={r € RF | Fr <lo, (lg) e Ln} 
={z E€ Q4 | exl, (llo) € La} 


对 应 前 节 的 式 (3.4), 利用 Q^ 可 以 把 旅行 商 问题 模型 化 为 如 下 
的 线性 规划 问题 . 
BRER Tr 一 最 小 
约束 条 件 : 4z = 2， 
Hycd (lo) € £4) 
0<z<1 


(3.9) 


另 一 方面 , 具有 整数 多 面体 Q" 的 整数 规划 问题 (前 节 的 式 
(3.0) 是 什么 样 的 问题 呢 ? 首先 ， 可 以 考虑 
目标 函数 :crz — 最 小 
约束 条 件 : 4z = 2 (3.10) 
z(e)— 0,1 (ee E) 


由 于 在 它 的 可 行 解 中 包含 有 图 3.2 那样 由 多 个 子 巡 
近 回 路 ， 所 以 需要 能 排除 这 种 巡回 路 的 约束 条 件 . 


m 
Bs 
E 
3 


$.2 由 了 六 回路 组 成 的 3.3 问题 (3.12) 中 除去 整数 
问题 (3.10) 的 可 行 解 条 件 情 况 下 的 可 行 解 
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c 
Çv. 


考虑 一 个 子 近 回路 , 经 由 它 的 ( 非 空 ) 节点 集合 设 为 环 
为 禁止 这 个 子 巡 回路 ， 只 要 加 上 条 件 


z(E(WO) € [W|— 1 (3.11) 


即 可 . 这 里 , RESH EROBRE, (EW) ER Ler 
r(e) 因为 经 由 全 节点 的 巡回 路 中 ， 连接 子 集合 W 内 的 节点 对 
之 边 最 才 只 有 | 生 1- 1 条， 所 以 这 个 条 件 仅 排除 子 巡 回路 而 不 
排除 正确 的 巡回 路 . 称 式 (3.11) 为 排除 子 巡 回路 约束 (subtour 


elimination constraint). 
式 (3.10) 里 加 上 式 (3.11) 后 的 整数 规划 问题 


目标 函数 ， Tr 一 ; 最 小 
约束 条 件 : Ar-22 
z(E(W)) «|W| -1 (W £V, Ww #0) 
z(e) 20,1 (e € E) 
正确 给 出 旅行 商 问题 的 模型 . 也 就 是 ， 这 个 问题 的 的 整数 多 面 


LIGUE 变量 的 整数 条 件 是 本 质 的 ， 如 果 除 去 它 ， 则 可 能 出 现 
图 3.3 那样 的 解 ， 因 而 未 必 给 出 巡回 路 . 


(3.12) 


3.2.2 适当 地 生成 边界 面 

Q^ 的 边界 面 集合 C. 里 究竟 包含 些 件 么 东西 呢 ? 像 后 面 
3.3 节 所 讲 的 那样 ， 前 面 排除 子 巡 回路 的 条 件 (3.11) 是 其 中 一 
部 分 , 除 此 之 外 还 有 很 多 边界 面 . 到 现在 为 止 还 没有 完全 乔 清 
En, 而 仅仅 知道 它 的 一 部 分 CL. d. DL CL 的 边界 面 为 约束 条 
件 来 解 线性 规划 问题 . 但 是 ， 即 使 限定 在 C 里 ， 边 界面 的 个 
数 也 很 庞 大 ， 全 以 显 式 处 理 是 不 现实 的 . 因此 ， 下面 适当 逐步 
追加 Ch 的 一 部 分 条 件 来 求解 ， 这 个 过 程 是 有 效 的 . 
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过 程 FACET (生成 边界 面 以 及 解 LP) 
第 一 步 (初始 化 ) £:=0. 
第 二 步 ( 解 LP): 基于 乙 解 线性 规划 问题 


目标 函数 : Tr — 最 小 
约束 条 件 : Ar=2, 9<z<1l (3.13) 
rid (LÀh)er) 


求 出 它 的 最 优 解 至 . 


第 三 步 (生成 边界 面 ): C, 的 边界 面 中 如 果 有 下 所 不 能 满足 者 ， 
则 求 出 其 中 几 个 - 如 果 没 有 这 样 的 边界 面 则 结束 计算 . 在 
找到 边界 面 的 情况 下 , 把 它 追 加 到 乙 中 , 再 回 到 第 二 步 . 


第 三 步 中 求 边界 面 的 问题 称 为 生成 边界 面 的 问题 (facet 
identification problem) 或 者 边界 面 分 离 问题 (facet separation 
problem). 其 具体 求法 将 在 3.4 节 加 以 说 明 . 

这 种 在 线性 规划 问题 里 追加 有 效 的 一 次 不 等 式 而 得 到 整数 
解 的 方法 一 般 称 为 割 平面 法 (cutting plane method). 上 面 的 过 
TE FACET 有 一 个 特征 ， 它 仅仅 使 用 表现 为 一 次 不 等 式 的 边界 
H. 因为 边界 面 给 出 的 是 整数 多 面体 的 极 大 面 . 故 不 存在 比 它 
更 强 的 有 效 条 件 . 可 以 说 正 因为 此 它 有 很 强 的 效果 . 


3.2.3 分 枝 切 割 法 

因为 cs。 是 有 限 集合 ， 所 以 过 程 FACET EA LS IS 
R. 但 是 当 n 很 大 时 ， |L%| 相当 大 ， 而且 即 使 执行 到 最 后 
都 未 必 能 保证 得 到 最 短 巡 回路 (因为 C, G La), 所 以 可 以 采 
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取 在 适当 的 时 候 中 正 选 代 的 手段 . 因此 有 必要 把 分 枝 定 界 法 
(branch-and-bound method) 引入 过 程 FACET. 

分 枝 定 界 法 是 丰 所 有 的 整数 解 中 有 系统 地 生成 可 能 成 为 最 
优 整 数 解 者 并 加 以 检验 的 过 程 . 这 是 可 以 适用 于 各 种 组 合 优化 
问题 的 有 一 般 竹 的 想法 , 但 是 , 在 这 里 我 们 仅 限 于 对 旅行 商 问 
题 ， 并 仅 对 引入 过 程 FACET 后 的 分 枝 切 割 法 (branch-and-cut 
method) 加 以 说 明 . 

把 在 计算 的 某 个 时 刻 边 界面 的 集合 记 为 C, 由 ele) — 0 
{zx(e) = 1) 所 国定 的 边 e 的 集合 记 为 Fo (Fi) 相应 地 可 以 定义 
线性 规划 问题 


PIC, o Fi): 目标 函数 : crz 一 最 小 
HRR: Ar —2, OX 7X1 
r <lo (lo) e £) (3.14) 
z(e) 20 (e € Fo) 
z(e)-1 (ee F) 


B P(C, Fo Fi) 的 实数 最 优 解 为 去 59, 由 适当 的 近似 解法 
或 者 目前 的 分 枝 定 界 法 的 计算 所 得 到 的 巡回 路 中 最 短 者 z* 叫 
TE 新 定 解 (incumbent), 其 值 z* = cTz* 叫 作 E 3E fll. (incumbent 
value). 此 时 、 有 如 下 两 个 性 质 ， 


1. 如 果 玉 给 出 近 回 路 ， 则 它 是 及 和 五 iR T e 
回路 ; : 


加 


2. 在 P(C, Fo, Fi) 里 不 存在 有 可 行 解 的 情况 下 ， 或 者 在 成 立 
TE> 2 的 情况 下 ， P(C, Fo, Fi) 不 可 能 给 出 比 x* 更 短 的 

XC e] gi. 
TCR PEOR E ULT. BD E fró lE FQ FQ FAW 
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P(C. F}, Fi) 也 不 可 能 得 出 比 x* 或 更 短 的 巡回 路 ， 因 而 可 以 
排除 出 以 后 的 考虑 范围 . 

分 枝 切 割 法 是 生成 满足 Fon Fi = 有 的 一 对 < FF > 后 , 再 
求解 PLL, Fo, Fi) 的 过 程 . 当然 , 如 果 查 询 所 有 这 样 的 < Fo, F >, 
可 以 求 出 最 短 近 回路 (这 仅仅 是 列举 法 ), 实际 上 根据 上 面 的 考 
察 ， 可 以 通过 仅仅 查询 对 < Fo Pi > 的 很 小 一 部 分 而 达到 目 
的 . 为 生成 < 琴 , 据 >, 从 互 = 五 =0 开 始 ， 在 得 不 到 上 面 
的 结论 1 或 者 2 的 情况 下 ， 选 取 适 当 的 eg FoU 记 ,替换 成 由 


B= Fo, Foe FaU {e} 


(3.15) 
F= Fou{e}h F} := F 


HER < Fo Fi > A < FSQFy >. 不断 反 复 进 行 这 种 操作 . 称 这 
^F e (或 者 由 此 而 确定 的 xz(e)) 为 S t SE RE (branching variable). 
< Fo. Fi > 的 生成 状况 可 以 用 图 3.4 的 生成 树 表 示 . 当然 , 根据 
EMKE 1 和 2, 实际 上 有 很 多 < Fo, Fi > 不 会 被 生成 ,由 此 
提高 计算 效率 . 


«9. 4> 
«(al 86» «V. deb 
N 
MD 0> < fah {ts} > 
/ Z N 


图 3.4 产生 子 问题 < Fo, F > 的 生成 树 


上 面 的 过 程 可 以 概括 如 下 . RB. S 是 存放 在 此 之 后 应 该 
PE < Fo Fi > 的 清单 . 
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算法 BCUT (分 枝 切 着 法 ) 

第 一 步 (初始 化 ): 令 5 := («0,0 -), C: 9. 利用 适当 的 近似 
解法 求 出 巡回 路 ， 记 忆 暂 定 解 x*, 同时 记忆 其 值 crz* 作 
为 暂 定 值 2* 

第 二 步 (搜索 ): ”如 果 S = WARTH, z 是 最 短 巡 回路 . 
如 果 S 0， 则 选取 适当 的 对 < FA ÀLeS 令 5:=5- 
{< Fo, Fi >}. 

第 三 步 (LP MES 解 线性 规划 问题 P(C, 责 ,后 )、 如 该 问题 不 存 
在 可 行 解 则 返回 到 第 二 步 . 否则 , 求 出 其 最 优 解 , A E. 

第 四 步 (下 界 值 检验 ): 如 果 c?F > z* 则 加 到 第 二 步 . 

第 五 步 (生成 边界 面 ): 求 出 几 个 不 满足 的 (lo) E A. 

第 六 步 (C ARRE 如 果 不 存 在 这 种 (lo) € C^, 则 进入 第 
七 步 如 果 存 在 ， 则 把 它们 加 进 £ 后 回 到 第 三 步 . 

第 七 步 (x* 的 更 新 ): WME TEREK, WE zx* := 五 z* := cz 
后 回 到 第 二 步 . 

第 信步 (分 枝 操 作 ): 选取 一 个 满足 0D < Te) <1 的 ee 已 ,在 < 
里 加 进 < Fofi U {e} >, < Fou {eh A >. MALH. 


为 使 算法 BCUT 作为 具体 的 程序 得 以 实现 ， 必 须 确 定 第 一 
步 中 ort 的 计算 法 ， 第 二 步 中 < FEQ >ES 的 选 定 法 ， 第 五 步 
中 边界 面 的 生成 法 ， 第 八 步 中 ee 互 的 决定 法 .不 同 的 方法 导 
致 计算 效率 的 巨大 差异 ， 

关于 第 一 步 中 近似 解 z* 的 求法 ， 也 就 是 旅行 商 问题 的 近 
似 解 法 , 已 作 了 广泛 研究 。 Lin 和 Kernighan 的 算法 [LK 73] 等 
广为人知 ， 本 书 省 略 其 详细 说 明 . 根据 这 些 方法 ,通常 可 以 有 
效 地 求 出 与 最 优 值 的 相对 误差 在 几 个 百分点 以 内 的 巡回 路 . 
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关于 第 五 步 中 生成 边界 面 的 方法 , 在 3.3 节 和 3.1 节 作 详细 
说 明 - 另外 , 这 样 生 成 的 边界 面 在 所 有 子 问题 P(E, Fo, Fi) 里 可 
以 共同 利用 ,所 以 随 着 计算 过 程 的 进展 ， 数 据 处 理 志 变 得 越 简 
单 ， 这 也 成 为 分 枝 切 割 法 的 一 个 特征 . 

其 次 , 注意 线性 规划 问题 P Fo, FL) 在 很 多 情况 下 其 有 特 
大 规模 ,变量 r(e) BUT HC m = n(n — 1)/2, Hi tin » = 1000 的 情 
况 下 ， 大 约 成 为 500,000 个 . 另外 ,由 于 边界 面 的 追加 ,约束 条 
件 的 个 数 也 随 着 第 六 步 的 选 代 急速 增 大 . 多 次 求解 这 种 大 规模 
问题 时 ,把 变量 和 约束 条件 限制 在 真正 与 计算 相关 者 来 求解 的 
技巧 是 很 有 效 的 . 其 内 容 在 3.5 TR. 

关于 第 二 步 和 第 八 步 的 考察 在 3.6 节 进 行 . 


3.3 旅行 商 问题 的 边界 面 


作为 多面 体 方法 的 核心 ,关于 边界 面 长 期 以 来 有 很 详细 的 
研究 。 像 本 节 后 半 部 分 要 讲 的 那样 ， 式 (3.11) 的 排除 子 巡 回路 
的 约束 便 是 边界 面 的 一 例 . 除 此 之 外 ,还 有 以 下 各 种 边界 面 . 


is] 


3.3.1 梳子 约束 (comb inequality) 
在 被 称 为 把 手 (handle) 的 集合 H C V 和 被 称 为 齿 (tooth) 
HRAT CV (i=1,2,...,k) 满足 条 件 


O nnf-4 G#D 


(b |HnTj21 (i=1,2,...,k) (3.16) 
() |n-HI21 (—12,..,k)? 
(d k: 奇数 


DT —H Em Stk T; 内 但 不 属于 H HTAA. 
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的 时 候 (参照 图 3.5), 由 


k k 
z(E(H)) +) sE) x HI+ i - 0 — Eti (3417) 
i=l 


i-i 


给 出 这 个 约束 . 特别 是 在 大 = 1, 1H| — 1 的 情况 下 ,这 个 条 件 成 
为 
z(EQ) < IT|-1 
它 即 为 排除 予 巡 回路 的 约束 (3.11). 另外 ， 在 所 有 的 齿 T, 满足 
[=2 (-12,..,k) (3.18) 


的 时 候 ， 特 别称 它 为 2- 匹配 约束 (2-matching inequality). 


(a) &LIBEBE 1 (b) BEIRN 2 (c) ERRA 
图 3.6 梳子 约束 和 这 回路 
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通过 图 3.6 来 考虑 一 下 梳子 约束 (3.17) 的 意思 图 3.6 的 
(a) 和 (b) 是 巡回 路 (对 应 于 实 线 和 虚线 的 边 e, (e) = 1 其 它 的 
zie) = 0), (C) 不 是 巡回 路 ,考虑 到 Hj = 5,7; = 2 (i = 1,2,3), 
不 论 是 在 (a) (b) (e) 的 哪 一 种 情况 下 梳子 约束 右边 的 值 都 是 
6. 另 一 方面 ， 梳 子 约束 的 左边 ,在 (a) 的 情况 下 ，z(E(H)) = 
3, «(E(T)) = 1 (i = 1,2,3), 因而 取 值 6; 在 (b) 的 情况 下 ， 
z(E(H)) = 4 «(E(Y)) = 1, rz(E(T)) = zCE(TS)) = 0 ES EHI f 5. 
i5 BO gk fe dT PUR KE PES 但 是 在 (e) 的 情况 下 ，x(EB(H)) = 3.5, 
z(E(T:)) = 1 (i = 1,2,3), 左边 的 值 是 6.5, 也 即 这 个 解 不 满足 梳 
FHIR. 梳子 约束 具有 排除 像 (c) 那样 的 非 巡 回路 的 效果 . 

梳子 约束 是 有 效 的 条 件 (其 定义 在 3.1 d$. 也 就 是 任意 的 近 
回路 满足 梳子 约束 ). 这 个 事实 可 以 如 下 证 明 . 这 里 ,用 E, V —v) 
表示 以 v 为 一 个 节点 的 边 的 集合 (组 成 以 2 为 中 心 的 星 } 设 = 
给 出 巡回 路 的 解 ， 则 成 立 


k 
PE(ECGH)) + 3 ETH 


i=l 


sP s(E(s,V — v) 


veH 


k 
+ D {EDD) + (EG: - H)) c (EQ 0H) (3.19) 


i=l 


k 
«aH Y ni 21m - Hi -1- Imo H|- 1) 

i=l 

k 


SAIA + $ nl - 0) -E 


i=l 
第 一 个 不 等 式 可 以 如 下 理解 。 并 verz(E(Y —v) 对 EUD 内 
的 每 条 边 计 数 两 次 ， 对 从 万 出 来 的 每 条 边 计数 一 次 . 比较 这 
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集合 ET - HUET: NAH) 和 ET) 包含 于 后 者 的 边 ， 如 果 
不 在 前 者 里 面 ， 则 一 定 是 E(DOH- H) 的 边 ， 它 已 经 作为 
了 ,eaz(E(e,V —2)) 的 一 部 分 计数 了 ， 第 二 个 不 等 式 是 因为 约 
W Ar = 2, 以 及 对 于 性 意 的 仇 G V, 巡回 路 最 多 仅仅 使 用 了 
E(W^) 的 THET-1 条 边 ( 也 即 排除 子 巡 回路 的 约束 ). 第 三 个 不 等 
式 是 整理 前 式 的 结果 . 全 体 除 2, 再 对 两 边 取 整数 部 分 就 得 到 
梳子 的 束 (3.17). 梳子 约束 的 最 后 加 上 条 件 上 (奇数 ) 是 因为 ， 久 
是 偶数 的 时 候 。 即 使 对 两 边 取 整 数 部 分 后 。 约 束 条 件 也 得 不 到 
加 强 ， 并 不 一 定 给 出 边界 面 . 

梳子 约束 是 真 面 {其 定义 见 3.1 节 ), 这 个 事实 可 以 如 下 理 
解 . 用 图 3.6 的 例 来 说 ,因为 存在 像 (a) 那样 以 等 号 形式 满足 杭 
TARRE, EFE iR (b) 那样 以 严格 不 等 号 形式 满足 的 
XAM. 碍 一 步 可 以 证 明 梳子 约束 是 边界 面 . 因 其 证 明 有 点 复 
杂 , EEEE. 可 以 采取 如 3.3.3 里 叙述 的 ， 和 针对 排除 子 巡 回 
路 约束 的 边界 面 性 的 证 明 一 样 的 思路 . 


3.3.2 团 树 约束 (clique tree inequality) 

作为 对 梳子 约束 的 推广 考虑 把 手 的 集合 H; CV= 
1.2,.... B) RUE G T;CV(i-12,...,k) 当 它 们 满足 以 下 
条 件 时 ， 称 为 团 树 . 

{a) H;nHy-0 (jj) 

(b) TnT = (xd) 

() 2x|nlza-2 (i=1,2,...,k) 

(d |T -UH 21 (-—12,..,k) 

(0 l|I23THES E (j = 1,2,...,h), 这 里 ， n- 
{iH nT; #0} 

(D um H,nTz0") Hj;nT 是 关节 集合 . 
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在 如 上 给 出 节点 子 集 合 Hi G-,2... f T; (i= 1,2,...,k) 
Er, 考虑 具有 节点 集合 Vt FaH) UUR T) 和 过 集合 
E = (UR EUG UUR, EQ) 的 图 G- — (V, E*). 不 失 一 般 性 
可 以 假设 G* 连通 . 否则 ， 只 要 把 以 下 的 讨论 用 在 每 个 连通 部 分 
即 可 ， 茶 个 节点 的 集合 Wc A 是 所 谓 的 3635 E (articulation 
set). 是 指 G" 的 由 V* -Ww 生成 的 子 图 不 连通 . 图 3.7 示意 了 团 
树 的 一 个 例子 . 图 中 阴影 集合 是 T, ARER H. 


B 3.7 ma 
EES RT O 5 AT E. 


à E ^ aus bel 
DAE) Y (EN)) < DA DIT) ^£ 020 
j=l i=1 j-1 - 


i=1 
x. 
t= IGIB; TE, $—1,2,...)] G-1,2,..,5) (321 


当下 = 工时 ， 团 衬 约束 相当 于 梳子 约束 (3.17). 由 此 可 以 知 
道 团 全 约束 是 梳子 约束 的 推广 . 团 树 约束 的 有 效 性 也 可 以 同样 
证 明 . 进一步 ， 其 边界 面 性 也 得 到 了 证 明 ， 

3.3.3 边界 面 性 的 证 明 
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为 证 明 某 个 有 效 约束 是 整数 多 面体 的 边界 面 . 一般 有 必要 
返回 到 有 关 的 定义 ， 并 进行 几何 学 的 讨论 . 这里， 作为 这 种 证 
明 的 例子 ， 证 明 排 除 子 巡回 路 约束 (3.11) 的 边界 面 性 . 

为 记 法 简单 起 见 ， 把 排除 子 巡 回路 约束 之 一 


z(E(W)) x |W| - 1 


写成 下 式 
bT rx by (3.22) 


这 里 ， 是 m(= n(n 一 1)/2) 维 向 量 ， bo EIE XS XE. 为 证 明 式 
(3.22) 是 边界 面 ， 像 3.1 节 所 述 的 那样 ， 只 要 证 明 集 合 


F = {2 € RR" e = b} ng” 
的 极 大 性 .也 即 ， 对 绽 出 真 面 的 任意 的 有 效 约束 dzxz < do, Hii 
F' = {z € R"dTz = do} N Q” 
具有 如 下 性 质 . 
FFs F=F (3.23) 
首先 , 证 明 性 质 (2.28) 的 一 个 充分 条 件 : 在 F'2 下 的 时 
B, IED a> 0H AER, 成 立 
dT = abf LATA (3.24) 
这 里 ， A 是 (3.8) 的 邻接 矩阵 . 注意 这 个 时 候 如 果 F' DF. n 
do = ato + 292A, 


iz 


这 是 因为 ， 对 于 ze 下, 一 定 成 立 ze 已 ,也 即 


d'z = cbrz+AMT4z=abo+2》 A; = do 


i-i 
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这 里 利用 了 式 (3.8) 里 的 条 件 4z = 2. Mn E JUI do 成 立 上 述 关 
系 ， 则 


d'z = do >ab x + AT Az = abo + 2 Da 
Ti 
=abTz = abo — br = bo 


这 意味 着 . WE os c F A ze FO(RBD F'C F) 证 明了 性 质 
(3.23) 成 立 . 

因此 ,以 下 证 明 在 F 2 OF 的 时 候 成 立 式 (224). 这 里 ， 为 
简单 起 见 ， 以 下 仅仅 用 下 标 i 表示 o. 另外 ， 选 取 


W = {1,2,...,k} (3.25) 


作为 给 出 式 (322) SW, 进一步 假定 n>6 而 且 2<k< 
n3. 考虑 ?条 边 形成 的 集合 


Eo = ((1,0] = 2,3,..., 8) U ((2,3)] 


Eo 构成 连结 ”个 节点 的 生成 树 和 一 个 奇数 长 的 回路 (1, 2), (2, 
3) (3. 1), 所 以 邻接 矩阵 A 中 仅 选 取 与 Bo 对 应 的 列 得 到 的 Ag, 
是 非 奇 异 的 〈 这 是 离散 数学 里 有 和 名 的 性 质 ， 其 证 明 也 不 难 ). 于 
是 ， 适 当选 取 Xe R", 可 以 使 


d'-—40.XA 


满足 条 件 
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这 样 确定 的 本 如 果 满 足 条 件 (3-24), 则 可 以 断言 原来 的 dT 也 
满足 条 件 (3.24), 所 以 ， 为 简单 起 见 ， 一 开始 就 假定 


dumb (i=2,3,...,n) 


(3.26) 
daa = bas 


这 里 ， 根据 W 的 定义 (3.25) 和 式 (3.22), 
bwd b 1 一 23. 天 的 情 冯 下 
BU i-kenkeií.gn BEERROF 
B23=1 
其 次 ， 考 虑 巡回 路 天 = (1,3,4... 523 Lj 2,0) A 
T) — (4, j71 3,2,/41.j42,...,n) 这 里 , j 是 满足 2 < 了 < 
的 任意 的 节点 .因为 它们 使 用 了 EE(W) 的 上 -1 工 条 边 ， 所 以 它 
们 的 特征 向 量 ID 和 rU 以 等 号 的 形式 满足 brz cb 根据 
F' 之 下 ,也 以 等 号 形式 满足 47?x < do. 由 


0 = d'an — dT" =dis+d2; 一 dij 一 d23 = daj—1 (根据 式 (3.26)) 


得 到 dy = 1 (2 < 了 了 <) 一般, 利用 a 二 (12... 和 一 Dit 
Yt 和 1 
L2.. n) 对 1<4<j<k 进 行 同样 的 讨论 ， 则 可 肠 计 


dj-1 (1<i<j<h) (3.27) 


Bh, MOREE Ts = {1,2,...,7) 和 76 = (2,1,3,4,...,n} 得 


出 
0 = das + din — dis — don 
也 即 得 出 dos — 0. 进一步 Jn RE r 和 7e 中 把 2 和 nn 起 的 作 
用 换 到 一 般 的 i 和 7 进行 同样 的 讨论 ， 就 可 以 证 组 
dj-0 (1&i£kkelzjtmn) (3.28) 
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最 后 , 从 巡回 路 六 = (1,2, k- 2. k+l, n,n- 1,..., k 93,3,4,..., Kk) 
fü rs 2 (L2.k c Lo, n — 1... £ 2,3.4,..., k) 得 出 


0 = dk41k+2 — dk+2k+3 
根据 同样 的 讨论 ， 知 道 存 在 有 满足 
djy=8 (K+t1l<i<jgn) (3.29) 


的 常数 2. 
合并 式 (3.27), (3.28) 和 (3.29) 就 有 
diz —z(E(W))-Bz(E(V - W)) 
dg = |W|—-1-48v-W|-—1) 


(3.30) 


do 的 值 可 以 通过 ,比如 75 以 等 号 形式 满足 d?z < do 而 导出 . 为 
求 出 8 的 值 的 范围 ,进一步 考察 巡回 路 ma = (1,n,2,3,... E ko 
1,...,n 一, 成立 有 


dTa = W|I-2+B0V -WI-2) < [W|- 14 8(V —W|-1) (= do) 


故 8> -~1. KAR, $ 


a=1+8 (20) 


二 -8/2，i=1,2,.…,k 的 情况 下 
B/2, i=k+1l,k+2,... n 的 情况 下 


ER (3.30) 的 dT 可 以 写成 
dT = aba ATA 


也 即 证 明了 式 (3.24). 另外 ， 8 = -1 也 妇 a = 0 的 情况 下 ， 
d — ATA, tj F j& Q^ I ELI FP Hi ( 因 不 存在 >& FUN 
TEQ") 故 可 以 不 必 考 虑 . 
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概括 上 面 的 结果 ,证 明了 排除 子 巡 回路 约束 (3.22) 是 Or 
的 边界 面 . 


3.4 生成 边界 面 的 方法 


ACUTE BCUT 的 第 五 步 中 , 在 PI, Fo, Fi) 的 最 优 解 z 
不 是 巡回 路 的 情况 下 ， 要 求生 成 几 个 排除 宇 的 边界 面 约束 ， 这 
是 生成 边界 面 的 问题 ， 需 要 有 高 效率 的 算法 ， 本 节 针 对 排除 子 
巡回 路 约束 以 及 2- 匹配 约束 介绍 其 算法 . 


3.4.1 排除 子 巡 回路 约束 
首先 构造 基于 互 的 图 


Gz = (V, Ez) 
Ez = {e € E| F(e) > 0} 
E Fe) 看 成 边 e 的 容重 、 定 义 网 络 
Nz = (Ge) (3.31) 


对 某 个 节点 集合 WGE, WOEVOW X0) 连接 全 和 VV 多 
的 边 的 集合 (参照 图 3.8) 


E(W,V - W) = ((v,w) € Erlv € Ww e V - W} (3.32) 
称 为 As 的 截 (cut), 称 


*F(E(W,V—W)z »» zle) (3.33) 
ec E(W,V =W) 
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E(Q, V-W y & i 


图 3.8 R E(UV—W) 


OR. 354v c W, 考虑 在 连接 v 的 边 集合 E(v V —v) 上 
zie) 的 和 ， 可 得 如 下 二 式 
S (Ele. V — 0) = 22(E(V)) - z(E(W V — Wn) 
vewW 
3 (E.V — = 2W] {因为 条 件 Ax = 2) 


ecu 


因此 ， 作 为 排除 子 循环 路 约 东 (3.11) 的 


(3.34) 


z(EQV)) € |W] - 1 
与 如 下 条 件 等 价 ， 
r(E(W,V -W))>2 


于 是 ， 可 以 知道 存在 排除 至 的 子 巡 回路 约束 的 充分 必要 条 件 
是 ， As 里 存在 容量 比 2 小 的 截 . 这 可 以 通过 求 出 Ne 的 最 小 
容量 截 来 判定 . 

作为 网 络 的 基本 问题 ， 求 网 络 的 最 小 容量 截 的 问题 已 有 广 
泛 研 究 ， Gomory 和 Hu 提出 了 一 个 有 代表 性 的 算法 . 它 是 用 
菜 种 方法 选取 n 一 1 组 节点 对 (s.t) (其 详细 过 程 在 此 省 略 ), 通 
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过 解 s 到 上 的 最 大 流 问 题 (参照 2.2.2), 来 求 出 分 离 s 和 + 的 最 
小 容量 裁 (这 是 基于 网 络 理论 中 著名 的 最 大 流量 小 截 (max-flow 
min-cut) 定理 ). 其 结果 . RE TAA FEET G) (1) 的 IRE 


pÍ (minimum cut tree) T. 


(j= (WEF) ERR, Zi JEF RAFE ulf) 


Gi) 对 任意 的 wzeV, 记 卫 上 从 ”到 由 的 唯一 路 上 边 的 最 
MER usus uoww 等 于 原 网 络 N 里 分 离 " 和 uo BO ÉL 
的 最 小 容量 . 


图 39 给 出 了 As 以 及 于 它 对 应 的 全 的 剑 . 特别 是 ， 如 果 
在 整个 工 中 求 出 最 小 容量 的 边 f, W uf) 等 于 Nz 的 最 小 截 的 
AE. Gomory 和 Hu 的 算法 在 强 多 项 式 时 间 (对 应 最 大 流 问 
题 的 时 间 量 x (n — 1)) 内 完成 . 


最 小 容量 的 截 
QS vA 一 全 
P Xx 
¢ 4 
d DE EO ROD 
EE 
(9) Nr ( 边 的 数字 是 其 容量 ) [OZESZLECELLISIO) 


图 3.9 Gomory 和 Hu IURE CRI 


3.4.2 2- 匹配 约束 

EHARA HCV 入 条 边 ei (i =1,2,.…, 忆 满足 条 件 
(al e, 和 ej (76 3) BUR 3E I9) 5 

(b) & 3l e, B) — 3 ER TE H PS. ATEH hh, 
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(Ok: A Sx. 
的 时 候 ， 这 个 2 匹配 约束 可 以 写成 
k 
zx(ECH) + Si nei) < LH] + - (3.35) 
izi 
(参照 式 (3.17), (3.18)). 
这 里 ， 利 用 松弛 变量 He) 把 式 (3.8) 改写 为 
Az 一 2 
z(e)-t(e) — 3, z(e) 20, te) 20 (ec E) 
在 条 件 Ar = 2 中 , 把 与 如 内 的 节点 对 应 的 等 式 加 起 来 , 进一步 
对 =z(ej+TtHej=1I 关 于 et=12 .大 ) 取 和 ， 极 据 同 式 (3.34) 
一 样 的 考察 有 


k k 
2z(E(H))  zE(H,V — HY) + $ ele.) + S te) = 2]H| + k 


i=l i=l 
也 即 得 到 ， 
n 
2(zCE(H)) + S aei) 
5 k k 
=2|H| +k - z(E(H, V — H) -$ t(e) + Y (e) 
H i=ì 


利用 这 个 关系 式 ， 可 以 把 2- 匹配 条 件 (3.35) 改写 成 
k k 
SOA cte + 2(E(H,V - H) -Y a(e) 21 {3.36) 
Eur 1 

进一步 ， 对 ei (i = 1,2,...  K), 根据 前 面 的 条 件 (o), 可 以 表示 为 


k 
S0- rle:)) + »» zí2) m1 
peri 


e€ EUH V - Hl {ees er} 


102 


该 式 的 左边 是 在 截 ECL V — H) 的 边 e 中 ， 对 es (i —1,2,...,K) 
取 (1 一 zten), 对 其 它 的 边 取 zle) 而 求 的 和 ， 
结果 ,把 求 排除 By 2- 匹配 约束 的 问题 解释 成 为 在 As 的 
R EHV- H) 里 ,把 其 中 奇数 条 边 e 的 容量 从 z(e) 变更 为 
O- ze) 的 时 候 是 否 存在 具有 容量 比 1 更 小 的 截 的 问题 . 
为 使 问题 进一步 明了 ， 在 各 边 e= (v, w) € Ee 上 添加 新 点 
Ve. Ve, 分 成 三 条 边 


eO = (vogue), eP = (yayi) e(9 = (yl e) 
把 得 到 的 图 记 为 G5 = (V, EL). 进一步 设 定 各 边 的 容量 为 
Ze) = z(e) = z(e) 
(e) = 1— z(e) 


把 得 到 的 网 络 表示 为 Ni = (GRE). 2#— k, ve HAR 
weV-HiWB, e= (vw) 是 否 包含 在 奇数 条 边 的 集合 
fenea en} 里 的 问题 可 以 转换 为 三 条 边 el eD, el3) 形成 
的 部 分 是 用 eU 切 开 (B0, ee {el,ez,...， ejh 还 是 用 eO gr 
(BP, eg {erez eH 的 形式 . 因此 , 把 G5 里 原来 Gz 有 的 节 
点 作为 偶 点 , 把 新 加 入 的 点 EE 作为 奇 点 而 加 以 区 分 . 这 祥 
一 来 , 待 解 的 问题 归结 为 在 Ns 里 , TE H' (SD RERO, V'- HO 包 合 
有 奇数 个 奇 点 的 条 件 下 求 出 最 小 容量 的 截 EH’, V — EE 
该 容 鞋 比 1 小, 则 把 豆 ' 中 偶 点 的 集合 作为 H, E(H', V- H') 里 
EB BO eC? 型 的 边 us, vL) 所 对 应 的 e 的 集合 作为 {e1,e2,... ,ek}， 
得 到 了 排除 的 2- 匹配 约束 . 如 果 最 小 符 量 在 1 以上， W TA 
足 所 有 的 2- 匹配 约束 . 

上 面 的 问题 带 有 包含 奇数 个 奇 点 的 条 件 ， 所 以 与 通常 的 最 
小 容量 截 问 题 不 一 样 ， 但 是 已 经 知道 ， 经 过 下 述 步骤 它 可 以 在 
£ SR SCES [8] Ps RE IB 
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1. 仅仅 针对 Nz 的 奇 点 利用 上 述 Gomory 和 Hu 的 算法 ， 
构造 出 最 小 容量 截 的 树 T'(T' 的 各 节点 对 应 于 NI 的 奇 
A 


2. 从 T RRE- RASERET 分 成 两 个 子 树 ， 在 使 得 两 
个 子 树 的 节点 树 都 是 奇数 的 了 中 求 出 最 小 容量 者 . 该 容 
Eul) 是 待 求 最 小 截 的 容量 - 


另外 ， 关 于 一 般 的 梳子 约束 (3.17) 以 及 团 树 约束 (3.20), 尚 
不 知道 有 对 生成 边界 面 问 题 的 多 项 式 时 间 求 解 算法 . 但 是 ， 有 
人 提出 了 几 个 近似 求解 的 多 项 式 时 间 算 法 ， 被 纳入 分 枝 切 割 
法 . 因 在 分 枝 亡 割 法 中 边界 面 的 生成 被 多 次 洁 代 使 用 ， 所 以 特 
询 要 求 提高 它 的 效率 为 此 ， 即 使 针对 上 面 的 排除 子 巡 铝 路 约 
束 和 2- 匹配 约束 ， 在 实用 上 也 经 常 采 用 高 速 近似 算法 . 


3.5 线性 规划 问题 PC, Fo, Fi) 的 处 理 


式 (3.14) KERTEH R IR] BE PC, Fo, Fi), ÆA m = (n — 0/2 
个 变量 r(e) 和 n+l 个 约束 条 御 (而 且 还 有 rle) > 0,7(e) € 1 
型 的 约束 ) 的 大 规模 问题 ， 为 有 效 进行 处 理 ， 人 们 在 以 下 各 方 
面 下 工夫 , 即 让 这 些 变量 和 约束 条 件 的 一 部 分 旦 显 式 而 在 有 必 
要 时 生成 其 它 部 分 . 


3.5.1 变量 的 处 理 

根据 报告 的 计算 实验 ， P(C Fo Fi) 生成 的 边界 面 之 中 ， 
成 立 等 号 者 最 多 有 个 ， 于 是 ， 和 约束 条 件 Az = 2 一 起 ， 可 
以 认为 实际 有 效 的 约束 条 件 最 多 是 2n 个 . 也 就 是 ， 该 取 正 值 
的 基 订 变量 的 个 数 最 多 是 2n 个 . 另外 ,根据 约束 条 件 4r = 2， 


z 
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取 值 x(e) = ! 的 变量 个 数 在 = 以下， 所 以 满足 rz(e) = 1 的 非 基 
变量 (正确 说 来 z(e) + te) = 1 的 松弛 变量 t(e) 是 非 基 变量 ， 即 
tte) = 0) 的 个 数 也 在 n 以 下 . 于是， 含 起 来 ， 该 取 正 值 的 变量 
个 数 最 多 是 nd MFH m — 3n 个 变量 取 0 值 

然而 ， 因 为 事先 并 不 知道 哪个 变量 取 正 值 ， 故 采用 其 推测 
集合 了 CE 来 使 计算 进行 下 去 计算 开始 时 ， 注意 算 法 BCUT 
的 第 一 步 中 根据 近似 算法 得 到 几 个 巡回 路 , 令 其 中 用 到 的 边 的 
集合 为 J. 拒 变量 限定 在 了 中 ，P(L, Fo Fi) 变 成 如 下 形式 . 


PE FPE) Bé cia; — 最 小 
约束 条 件 ， 4uzy 一 2, 0<zJS1 
Lr < (3.37) 
r(e)-0 (ee FynJ) 
z(e)91 (ee NJ) 


这 里 ，xv 是 把 变量 向 量 x 限定 在 ee 7 后 的 结果 ， Lz < 是 
把 约束 条 件 集合 To < to (lo) € £) 写成 矩阵 形式 后 的 结果 . 
cs, Ag, 上 J 分 别 是 从 c, 4, 工 之 中 仅 取出 与 变量 r(e) (e € J) Xf 
应 的 分 量 后 的 结果 . 

Pj(£, Fo, Fi) 的 最 优 解 37 是 P(L, Fo, Fi) 的 可 行 解 (关于 J 
以 外 的 变量 , $ x(e) = 0(e € E- J) ), BFR- RE REIR UC AR, Hi 
以 线性 规划 中 采用 被 称 为 列 生成 法 (column generation method) 
的 下 述 适 代 过 程 . 


过 程 CG (根据 列 生 成 法 的 P(C, Fo. Fi) 解法 ) 


第 一 步 (初始 化 ): 从 适当 的 了 CB 开始 .这 里 ， 要求 选取 了 使 
得 图 G; = (V,J) 至 少 包 含 一 个 巡回 路 . 
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第 二 步 (LP ND 求 出 PLL, Fo, F1) 的 最 优 解 mu. 同时 也 求 出 针 
对 约束 条 件 Aey =2 UR Lyry < 的 单纯 形 乘 子 向 量 
(参照 1.3 节 和 1.7 节 ) 五 各 . 


HIF (RRISE: 求 出 了 以 外 的 变量 的 相对 成 本 (参照 1.3 
节 ) 
r(e) := ele) -Uf Ae -FL (ee E-J) (3.38) 


这 里 ， A (L) 表示 A (D) 的 变量 r(e) 所 对 应 的 列 ， 如 果 
HAB e cE- J gA rle) > 0, 则 (结束 计算 . Tu 是 
P(C.Fo, Fi) 的 最 优 解 、 否 则 进入 第 四 步 - 


第 四 步 (更 新 ): 令 
J:-JU(ee E- J|rte) « 0) 


tg gl S — p. 


通常 如 果 考 虑 到 |J| «c LE], 则 第 三 步 很 费时 间 . f CUTE TAS 
HS] FÉ BO FoU Fs 更 新 已 时 多 次 求解 PC, Fo, Fi), SE Bde 
动 过 程 CG 并 不 见得 合算 - 这 是 因为 对 现在 的 了 解 P(E, Fo, FI) 
得 到 的 x; 即使 不 是 最 优 ， 只 要 能 够 生成 边界 面 ， 分 枝 切 割 法 
就 可 以 照样 进行 下 去 . 作为 现实 的 妥协 方案 , 可 以 考虑 仪 在 下 
述 条 件 之 一 成 立时 起 动 过 程 CG 的 规则 : 


. L=0 HRE. 
。 Æ F Ty 生成 边界 面 时 失败 了 的 时 候 . 


e。 才 次 (比如 5 次 ) 没有 采用 过 程 CG 解 PHL, Fo, Fi) 的 时 
&. 
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3.5.2 约束 条 件 的 处 理 

得 到 P(C, Fo, Fi) BUR (CAR m BER. deg RE UT < pm 
(llo) € £) 中 成 立 等 号 的 集合 记 为 Cu. Pla Fo, Fi) 也 同样 具 
ARMI T, 故 属于 已 - La 的 约束 条 件 从 这 个 时 候 开始 就 成 为 
多 余 的 了 . 因此 ，P(L. Fo, Fi) 的 计算 结束 时 , 把 一 5。 的 约束 
条 件 转移 到 存放 处 E, 从 而 把 问题 缩小 成 为 Pla, Fo Fi) 后 进 
行 计 算 (生成 新 的 边界 面 等 等 ). 这 不 是 单纯 的 会 去， 之 所 以 留 
EER CO 是 因为 它们 很 有 可 能 给 出 其 它 L 9 PAL, Fo, Fi) 
的 有 效 边 界面 - 办 此 , 算法 BCUT 的 第 五 步 (生成 边界 商 ) 中 首 
先 查 一 查 乙 里 有 无 可 以 利用 的 约束 , 仅 在 没有 的 情况 下 起 动 边 
界面 的 生成 过 程 . 

关于 存放 处 工 的 大 小 ， 如果 不 加 处 理 ， 可 能 省 无 边际 地 增 
长 下 去 ， 所 以 有 必要 在 适当 的 时 期 加 以 整理 ， 使 之 摄 保持 适当 
的 大 小 . 


3.5.3 变量 的 固定 

下 面 下 的 工夫 是 ， 利 用 初始 问题 P(C,0,0) 的 信息 ， 预 先 
固定 (fixing) 一 部 分 变量 为 0 或 者 1. 假定 给 定 了 暂 定 值 z*， 
P(C,0,0) 的 最 优 解 未 及 其 值 — cT, 变量 (e) 的 相对 成 本 7(e) 
(ee E) (参照 式 (3.38)). 这 时 , 由 相对 成 本 表达 的 目标 函数 值 的 
x& (1.10) 成 为 

2234 > r(e)x{e) 
ecE 

(这 里 , 关于 基底 变量 x(e) 
iE 了 的 最 优 性 质 ) 和 x(e} 
HER r(e) 写 下 来 就 得 到 


有 r(e) = 0). FE, 注意 到 rte) > 0 (R 
20, 把 上 式 限 定 于 一 个 成 立 Eley=0 


xz 之 三 二 rtejzfe) 
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结果 ， 把 这 个 变量 固定 在 r(e) = 1 后 的 LP 问题 的 最 优 艇 z 
z> Er(ehBrbüng 


Zer(e)2 2 BHBDo(e)z2—5 (3.39) 


则 让 zx(e) = 1 不 可 能 得 到 比 暂 定 值 z* 更 好 的 值 ， 于 是 , 在 这 种 
WRF. ERE (e) = 0 也 不 会 失去 一 般 性 . 
同样 ， 在 Te) = 工 的 时 候 ， 如 果 


(e) < -(2* — 8) (<0) (3.40) 


则 可 以 画 定 z(e) = 1. 

根据 计算 实验 ,以 这 种 方式 国定 下 的 变量 占 全 变量 的 709%， 
if mpg 9596 以 上 . 被 固定 下 来 的 变量 在 以 后 的 计算 中 没有 
考虑 的 必要 ， 所 以 在 提高 计算 效率 方面 非常 有 效 . 

分 枝 切 割 法 里 ， 与 上 面 的 固定 相 区 别 . 将 属于 o LE 
的 取 值 r(e) = 0 或 者 r(e) = 1 的 变量 称 为 设 定 (setting) 变量 . 
司 定 变 量 的 效果 波及 所 有 的 子 问题 PUC, Fo, Fa), 但 设 定 变量 的 
效果 仅仅 影响 到 其 子 问题 . 各 PA, F) 里 , 尽管 固定 后 的 变 
量 和 设 定 后 的 变量 都 存在 ， 其 结果 存 可 能 进一步 设 定 变量 比 
如 ， 如 果 疗 定 或 者 设 定 与 连接 某 个 节点 < 的 两 条 边 e 和 e 为 
z(e) = z(e&) = 1, WAR S A ff Ar = 2. 与 v 连接 的 其 它 边 e* 可 
设 定 为 ze”) = 0. 

分 枝 切 割 法 的 计算 中 ， 在 更 新 了 暂 定 解 x** 的 情况 下 ， 如 
果 对 新 的 x* 检验 式 (3.39), (3.40), 则 有 进一步 固定 新 的 变量 的 
可 能 性 . 于 是 ， 考虑 这 些 检验 与 所 需要 的 时 间 及 效果 之 间 的 平 
衡 ， 进 行 适宜 的 检验 才 是 有 效 的 . 
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3.6 分 枝 切 审 法 的 枸 成 


本 节 叙 述 有 关 3.2.3 的 分 枝 切 割 法 BCUT 的 剩余 部 分 ,也 
就 是 第 二 步 的 搜索 法 和 第 八 步 的 分 枝 操 作 . 为 使 分 村 切割 法 作 
为 程序 得 以 实现 ,还 要 求 对 数据 结构 等 做 细 弦 入 微 的 考察 . 特 
别 是 , 随 着 计算 进行 下 去 , 如 何 存储 所 生成 的 子 问题 < Fo, F > 
的 有 关 数 据 (是 包含 有 关 其 上 一 级 的 线性 规划 问题 PIL, Fi, Fi) 
的 数据 好 呢 ， 还 是 仅仅 存储 有 关 Fo, Fa 的 最 小 限 的 数据 好 呢 )， 
不 同 的 存储 方案 对 所 需要 的 空间 以 及 计算 时 间 会 产生 巨大 的 
EX. 但 是 ， 由 于 其 详细 讨论 超出 本 书 范围 ， 读 者 可 参考 有 关 
的 文献 . 


3.6.E 搜索 法 

第 二 步 里 ， 从 清单 3 之 中 选取 一 个 下 一 步 检 验 的 子 问 题 
< FoFi >. 原则 上 上， 选取 任 意 一 个 < Fo Fi > 计算 都 是 正确 
的 , 但 是 进行 计算 的 状况 要 发 生 很 大 的 变化 , 该 选 定 法 决定 以 
何 种 顺序 考察 图 3.4 那样 的 树 的 节点 ， 所 以 称 为 搜索 法 (search 
strategy). 具有 代表 性 的 搜索 法 有 以 下 几 种 : 


L 从 最 新 生成 的 < FF > 中 选取 . 

2. 着 眼 于 生成 < Fo, Fi > 的 P(E, Fi FD, 选取 使 其 最 优 解 
的 值 ce73 达到 最 小 者 . 

3. 用 某 种 方法 推断 从 < Fo F > 得 到 的 最 短 巡 
度 ， 选 取 具 有 最 小 推断 值 者 . 


搜索 法 1 称 为 深度 优先 搜索 (depth-first search). 这 里 ,因为 
分 枝 操 作 (第 八 步 ) 里 最 新 生成 的 子 问题 有 了 两 个 , 必须 事先 决定 
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E 
E 
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其 中 哪个 优先 . 这 个 搜索 法 具有 可 以 将 S 中 存放 的 < Fo F, > 
的 个 数控 制 在 w+1 个 以 下 的 特征 ， 在 存储 空间 方面 是 有 利 
的 . 另外， 与 其 它 搜索 法 相 比 ， 程 序 比 较 简单 也 是 特征 之 一 . 

如 果 采 用 以 到 结束 计算 为 止 被 检验 的 子 问题 < ET 
个 数 来 评价 计算 效率 的 观点 ， 则 搜索 法 2 被 认为 是 有 利 的 ， 因 
为 检验 的 个 数 可 以 控制 得 比较 少 , 由 于 利用 了 从 PE, Fh F) 得 
到 的 最 短 巡 回路 的 下 界 值 ， 在 这 个 意义 上 把 它 称 为 最 好 下 界 
搜索 (best-bound search). 基于 最 小 的 下 界 值 的 理由 如 下 : 


* 关于 选取 的 < Fo Fi >, PLL, Fo, Fi) 的 值 有 变 小 的 倾向 ， 
作为 其 结果 。 更 快 找到 短 巡 回路 的 可 能 性 很 大 . 


* 在 P(C, Fo, Fi) 不 给 出 巡回 路 的 情况 下 ( 即 ， 进 入 第 八 步 
的 分 枝 操作 ), 即使 这 个 < Foo P, > 在 后 面 选取 ， (因为 
P(C, Fo, Fi) 的 值 很 小 ) 根据 第 四 步 的 下 界 值 检验 而 终止 的 
可 能 性 很 小 ， 仍 然 进入 第 信步 ， 因 而 并 不 有 利 . 


因此 ， 旅 行商 问题 的 分 枝 切 割 法 里 , 采用 最 好 下 界 搜索 的 
情况 好 像 很 多 - 

搜索 法 3 因为 是 启发 式 地 求 出 推断 值 故 称 为 启发 式 搜索 法 
(heuristic search). 如 果 推 断 值 的 精度 很 高 , 则 有 合并 搜索 法 1 和 
2 的 优点 的 倾向 ， 故 很 有 效 . 但 是 ， 在 旅行 商 问题 的 情况 下 ， 
很 难 通过 简单 的 方法 得 到 好 的 推断 值 . 故 还 没有 被 实用 化 . 另 
外 ,如果 采 用 上 一 级 P(C, Fo, F1) 的 值 作为 推断 值 ， 则 与 最 好 下 
界 搜 索 法 等 价 (也 就 是 ， 启 发 式 搜索 法 作为 特别 情况 包含 有 最 
好 搜索 法 ), 有 时 也 把 搜索 法 2 和 3 合 起 来 称 为 最 好 优先 搜索 


(best-first search). 
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3.6.2 分 枝 操 作 

第 八 步 的 分 枝 操 作 是 根据 用 到 的 分 枝 变量 ee EE 来 决定 
的 ,选取 哪个 变量 更 有 效 ， 没 有 明确 的 判断 标准 . 但 是 直观 上 
认为 ， 先 选取 对 其 后 的 计算 有 很 大 影响 的 变量 要 好 些 . 具体 来 
说 ， 希 望 分 枝 操 作 结 果 得 到 的 2 个 子 问 题 < Fo, Fiu {e} > 和 
< FoU (ek Fy > S US — A HG EE < Fo Fi > 的 值 有 很 大 的 
EF. 因为 这 种 子 问题 满足 第 四 步 的 下 界 值 检 验 条 件 因而 被 排 
由 的 可 能 性 很 大 . 

作为 具有 这 种 性 质 的 变量 e 的 条 件 ， 可 以 考虑 


* P(L, Fo, Fi) 的 最 优 值 处， z(e) 的 值 离 中 间 值 0.5 很 近 
者 ， 


。 目 标 函 数 的 系数 ce) 很 大 者 . 


3.7 旅行 商 问题 的 计算 实验 


在 根据 分 枝 切 割 法 的 计算 结果 中 ， 介 绍 Padberg 和 Rinaldi 
[PR 91] 的 一 部 分 这 是 报告 了 最 好 结果 的 论文 之 一 . 

表 3.1 从 已 报告 的 众多 例子 之 中 选取 5 个 并 概括 它们 的 计 
算数 据 ， 不 论 在 哪个 例子 中 , 平面 上 两 点 i 和 j CSI B x 坐标 
H y 坐标 给 出 ) 的 距离 c(i,j) 是 由 下 式 给 出 的 欧 几 里 得 距离 (四 
合 五 入 的 结果 ) 


ei) = VEO 7277 GP + 2| 


所 生成 的 ， 最 大 的 TH2392 里 ， 如 果 所 有 的 变量 全 部 以 显 式 处 
理 ， 就 成 为 包含 有 约 286 万 个 变量 的 大 规模 的 问题 . 


表 的 第 二 段 里 记载 了 最 短 巡 回路 长 DPT 以 及 分 枝 切 割 法 
得 到 的 元 个 数据 . RATIO 表示 的 是 以 P(&0,.0 的 值 为 基准 ， 
P(£,80,0) 8&5 f& (算法 BCUT 的 第 三 步 结 束 时 的 cz) 和 OPT 的 
比 的 百分数 表示 . 对 特大 规模 的 例子 ， 这 个 值 接近 100 表明 了 
边界 面 约 束 的 效果 . 


Æ 3.1 对 旅行 商 癌 题 的 分 枝 切 割 法 的 计算 结果 


ELEI 

GHOS6 TK136 ATT532 TK1002 TH2392 

节点 数 n 96 136 532 1002 2392 
变量 个 数 m 4560 9180 141246 501501 2859636 
P(c.0,0) 的 值 LBO $5019.8 96546.0 27655.6 258856.6 377986.5 
RATIO* 92.4 97.0 97.1 99.0 99.8 
近似 巡回 路 长 UB 55733 96098 27985 266437 390474 
最 短 近 回路 长 OPT 55209 96772 27686 259045 378032 
线性 规划 问题 的 总 数 126 119 1098 334 112 
列 数 I 的 最 大 值 222 276 2278 2365 5273 
生成 的 边界 面 约 束 的 个 数 553 788 16987 11020 10238 
约束 条 件数 的 最 大 值 187 259 2273 2059 3908 
生成 子 问题 的 个 数 6 10 106 18 2 
最 短 巡 回路 的 计算 时 间 。 9 9 109 323 1534 
P(C,0,0) 的 处 理 时 间 * 19 31 547 1120 5465 
REER UITARE * 24 27 8731 5225 5890 
全 计算 时 间 “ 63 71 19805 11714 9515 


a RATIO-100(LBO-LP1)/(OPT-EP1) 这 里 ， LP1 是 P(0,0,0) 的 值 . 

5 单位 是 秒 ， 使 用 的 计算 机 是 IBM 3090/600. 
第 三 段落 里 记载 了 实际 生成 的 边界 面 约束 的 个 数 和 解 出 
的 线性 规划 问题 PC, Fo, Fi) 的 总 数 . 这 些 线性 规划 问题 的 规 
模 可 以 肝 显 式 使 用 的 变量 的 个 数 { 式 (3.37) 的 |J) 以 及 必要 的 
约 东 条 件数 (条件 Ar = 2 的 个 数 n 和 边界 面 约束 的 总 数 ) 来 评 
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价 ， 它 们 之 中 的 最 大 值 和 变量 的 个 数 m 与 边界 面 的 总 数 比 起 
来 小 得 多 ， 表 明 35 节 中 的 各 种 努力 见效 了 . 

签 表 的 第 四 段落 里 写 的 那样 ， 分 枝 切 割 法 生成 的 子 问题 
< FoFi > 的 个 数 几乎 都 小 到 让 人 感到 吃惊 ， 其 理由 可 以 认为 
是 


。 由 于 边界 面 约 束 的 效果 ， 各 PL. FoFi) 给 出 高 精度 的 下 
界 值 ， 

。 对 旅行 商 问 题 ， 有 像 3.2.3 所 所 及 的 Lin 和 Kernighan 的 方 
法 那样 的 非常 好 的 近似 解法 ， 


。 分 核定 界 法 的 各 要 素 (搜索 法 ， 分 村 变量 的 选 定 法 等 等 ) 
运行 良好 ， 


等 等 . 


图 3-10 问题 实例 TH 2392 的 最 短 巡 回路 [PROL 


表 的 最 后 的 段落 是 关于 计算 时 间 的 数据 . 使 用 超大 型 计算 
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机 IBM 3090/600 时 ， 解 大 规模 的 问题 需要 几 小 时 . 采用 的 单纯 
形 法 的 软件 包 是 IBM 开发 的 OSL. 所 需 时 间 并 不 仅 取决 于 节点 
数 m, 可 以 看 出 有 可 能 nn 小 反而 更 消耗 时 间 ， 最 后 ， 图 3.10 示 
意 对 应 n= 2392 的 问题 实例 的 最 短 巡 回路 . 

根据 分 枝 切 制 法 的 计算 实验 ,其 后 通过 对 算法 的 细微 部 分 
进行 加 工 , 在 备 处 有 了 进展 ,最 近 有 报告 说 解 出 了 n> 3000 的 
问题 例子 . 


E 


3.8 文献 及 其 它 话题 


对 于 包含 旅行 商 问 题 的 各 种 各 样 的 最 优化 问题 {特别 是 NP 
难 者 ), 基于 分 枝 定 界 法 算法 的 开发 很 盛行 ,取得 了 一 定 的 成 
D. 结果 ,在 分 枝 切 句法 里 ,根据 多 面体 方法 可 得 到 高 精度 下 
界 值 ， 使 得 实用 上 的 界限 向 前 迈进 了 一 步 . 


整数 多 面体 的 理论 是 以 1935 年 的 Weyl 的 定理 为 开端 ， 但 
是 关于 旅行 次 问 题 ， 是 以 1954 年 的 Dantzig, Fulkerson, Johnson 
[DF 54) 提出 的 方案 开始 的 . 另外， 该 论文 也 是 有 系统 地 构造 
分 核定 界 法 的 最 早 的 论文 之 一 .其 后 ,接连 发 现 了 旅行 商 问题 
的 边界 面 约 束 ([GP 79] [GP 86] 等 ), 报告 利用 这 些 结果 的 分 校 
切割 法 得 出 很 好 的 计算 结果 的 同时 ， 也 起 到 了 多 面体 方法 的 率 
引 车 的 作用 . 关于 边界 面 约束 ， 除 了 3.3 节 所 述 的 梳子 约束 ， 
2. 匹配 约束 ， 团 约束 之 外 ， 还 有 路 树 (path-tree) 约束 和 k- 路 
(k-path) 约束 等 等 . 进一步 , 还 有 不 眼 于 边界 面 有 效 约 束 ， 观 
Hi (binested) 约束 和 二 分 (bipartition) 约束 等 为 数 众 多 的 类 型 
[CFN 85] [BC 91] [NR 21]. 在 [GH 91] [PR 91] 里 报告 有 包含 大 规 
模 问 题 实 傅 的 数值 实验 . 本 章 的 内 容 ， 包 括 3.7 的 计算 实验 ， 
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主要 根据 [PR 91]. 

旅行 商 问 题 本 身 是 很 有 趣 的 研究 对 象 ,长久 以 来 从 各 个 侧 
面 进行 了 研究 . [LLRS 85) 是 综述 这 些 成 果 的 书 . 关于 近似 解 
法 ， 该 书 也 报 述 了 有 代表 性 的 Lin, Kernighan ILK 73] 的 结果 . 
关于 分 枝 定 界 法 的 一 般 叙 述 ,以 及 村 其 它 问题 中 的 应 用 等 等 ， 
[E 83] 都 有 很 详细 的 论述 . 

3.4 节 利 用 了 与 边界 面 约束 的 生成 相关 联 的 网 络 流 上 的 各 
种 成 果 . 该 领域 的 主要 文献 已 经 在 2.6 节 给 出 ， 求 图 的 最 小 截 
算法 里 有 3.4 节 提 及 的 Gomory, Hu [GH 61] 及 其 改良 版 本 [PR 
90], 还 有 与 最 大 流 问 题 无 关 的 [NI92] 等 新 方法 . 

关于 旅行 商 问题 的 变形 也 有 广泛 的 研究 ， 比 如， 利用 多 台 
车 访问 全 部 节点 的 问题 ， 考 虑 了 经 过 各 点 时 要 秋 下 货物 ， 同 时 
也 考虑 了 车 子 的 容量 限制 等 等 问题 . 关于 这 些 问 题 的 展开 请 参 
看 [LLRS 85] 等 文献 . 


115 


第 4 章 非 线性 最 优化 


本 章 讨论 非 线性 最 优化 问题 . 首先 说 明 针对 无 约 东 问题 的 
有 代表 性 的 方法 -- 梯度 法 ， 和 牛顿 法 ， 拟 牛顿 法 以 及 共 轿 梯度 
法 的 甘 本 思想 和 性 质 . 其 次 叙述 针对 一 般 带 约束 问题 的 城 优 条 
fe. 讲解 带 约束 最 优化 里 最 有 效 的 一 个 方法 ， 逐次 二 次 规划 法 
(SQP ik). 最 后 ， 领 述 基于 上 帆 分 析 的 强 有 力 方法 ， 接 近 点 法 . 


4.1 无 约束 最 优化 问题 


本 章 前 半 部 分 考察 没有 约束 条 件 的 最 优化 问题 . 


BRER: fe) — 最 小 (4.1) 


这 里 ,变量 z Eon 维 实 向 量 , DREAS: R" 一 尺 假 定 为 二 次 
连续 可 微 . 另外 ,向 量 全 为 列 向 量 , 即 r= (zl za EE EUM 
为 转 置 记 号 )- 

可 以 认为 非 线性 函数 一 般 像 图 4.1 那样 有 几 个 出 峰 和 山 
S. 这 里 ， 图 41 中 点 a 是 在 变量 x 的 全 领域 里 使 目标 通 数 
了 达 最 小 的 点 ， 这 冬 的 点 称 为 问题 (4.1) 的 全 局 最 优 解 (global 
optimal solution); 点 d 仅 限 在 它 的 适当 邻 域 里 使 目标 函数 达 最 
小 ， 这 样 的 点 称 为 局 部 最 优 解 (local optimal solution). 当然 全 
局 最 优 解 也 是 局 部 量 优 解 . 

特别 是 ， 人 们 知道 ,目标 函数 了 为 凸 函数 (convex function) 
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的 时 候 (参照 附录 A. 2), 问题 (4.1) 没有 像 图 4.1 的 点 4 那样 (不 
是 全 局 最 优 解 ) 的 局 部 最 优 解 . 但 是 ， 事 先知 道 给 定 的 目标 函 
数 为 凸 耳 数 的 情况 很 少 ， 一 般 不 得 不 致力 于 存在 多 个 局 部 最 
优 解 的 问题 ,在 一 般 情况 下 ， 从 非特 定 的 多 个 局 部 最 优 解 中 ， 
找 出 全 局 最 优 解 实 际 上 非常 困难 . 闪 此 ， 通常 的 非 线性 最 优化 
E. 认为 局 部 最 优 解 就 是 要 求 的 解 ， 也 就 是 把 如 何 有 效 地 找 出 
局 部 最 优 解 作为 中 心 课题 . 


fy 
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1 
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图 4.1 全 局 景 优 解 和 局 部 最 优 解 
非 线 性 最 优化 里 函数 的 梯度 这 个 概念 起 重要 作用 ， 函数 
T:R” > ROGER B" 的 梯度 (gradient), Té EA Sk £a fa je 
分 系数 Gf(z)/8z; (7 = 1,2, 0) 为 分 量 的 nw 维 向 量 ， 用 


„Y 


d 


VEE) = (8f(2)/02, 8f (2)/ B72,..., 8 f (2) /0z,)". 
BUR. 众所周知， 如 果 点 r* 是 问题 (4.1) 的 局 部 最 优 解 ， 则 成 


立 
Vf(z*)-0 (4.2) 
但 是 , 满足 式 (4.2) 的 点 et, 像 图 4.1 的 点 5 和 < 那样， 并 不 一 定 
限于 问题 (4.1) 的 局部 最 优 解 ， 也 即 ， 一 般 说 来 ， 式 (4.2) 是 点 
*” 成 为 问题 (4.1) 的 局 部 最 优 解 的 必要 条 件 而 不 是 充分 条 件 . 
当然 ， / 为 凸 函数 的 时 候 式 (4.2) 是 点 z* 成 为 问题 (4.1) 的 全 
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局 最 优 解 的 充分 必要 条 件 . AF, 称 满足 式 (4.2) 的 点 为 函数 f 
的 稳定 点 (stationary point). 
moshnshanin nist (4.1) 的 局 部 最 优 解 的 
， 有 必要 考虑 函数 f 的 二 次 微分 系数 .nn 个 变量 的 函数 
; - 次 微分 系数 可 用 以 zf(z)/ariaani AR i £158 5 列 元 素 
的 ”xm 矩阵 来 表示 ， 称 该 矩阵 为 函数 了 在 点 z 的 海 赛 矩 阵 
(Hessian matrix), 用 V?f(z) 表示 . 当 函 数 了 为 二 次 连续 可 微 时 ， 
因为 ?f(z)/6zi8zx, = O? f(z)/Oz;O0x. p Xr, 所 以 V?f(z) 是 对 称 
IERE. 
如 果 点 x* 是 问题 (4.1) 的 局 部 最 优 和 解 , 则 f 在 点 zx” 的 海 赛 
矩阵 为 半 正 定 的 ， 也 即 
y7V2ftz")y > 0 (对 任意 的 ye R°) (43) 
成 立 . 另外 ， 当 x* 是 f 的 稳定 点 ， 而且 f 在 点 x* 的 海 赛 矩 阵 
正定 ， 也 就 是 
ITVS y> 0 (对 任意 的 ye Re, a0) —— (44) 
时 ,也 可 以 断言 点 zx* 是 问题 (4.1) 的 局 部 最 优 解 . 因此 , 式 (4.2) 
和 式 (4.3) 合 起 来 称 为 针对 问题 (4.1) 的 最 优 性 的 二 次 必要 条 件 
(second-order necessary condition), 式 (4.2) 和 式 (4.4) 为 二 次 充 
分 条 件 (second-order sufficient condition). 


4.2 梯度 法 


梯度 向 量 Vf(zx) 是 函数 f 在 点 x 的 增加 率 达 最 大 的 方向 ， 
故 在 最 小 化 函数 了 时 它 成 为 最 重要 的 工具 . 实际 上 ,针对 无 约 
东 最 优化 问题 (4.1), 到 现在 为 止 大 家 知道 的 解法 中 大 多 属于 下 
Té BU ER X 梯度 法 (gradient method) 的 方法 类 . 
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算法 GRADIENT (梯度 法 ) 
第 一 步 (初始 化 ): 选取 适当 的 初始 点 (9 € R^, G kic. 


第 二 步 (搜索 方向 的 计算 ); 利用 适当 的 正定 对 称 矩阵 HUO 计算 
BUE E ZO := H7 Vf). (如 果 立 Hzto) =0 
则 结束 计算 .) 


第 三 步 (一 维 搜索 ): 解 一 维 最 优化 问题 
min f(x + 1g) (4.5) 


E dh C C SI 十 100400, k:=k+1 0 
到 第 二 步 . 


因为 矩阵 HO 正定， 如果 Vf) o NRE 


V f(z T = -Yf (THO Y f(x) <0 


ERE, dO 是 函数 了 在 点 zt 的 下 降 方向 (descent direction). 
特别 是 ， 如 果 让 矩阵 HOO 恒 为 单位 矩阵 了 则 qi — -V f(s). 
称 该 4*} 为 最 速 下 降 方向 ， 此 时 上 面 的 方法 称 为 最 加 下 降 法 
(steepest descent method). 

实际 计算 中 在 第 二 步 执行 收 伍 判定， 比如 ， 对 于 事先 给 
定 的 很 小 的 正常 数 e 如 果 


IV £09 « e 


成 立 ， 则 结束 计算 (li D RJL E BR TEMO. 

解 一 维 最 优化 问题 (4.5) 确定 步 长 的 方法 称 为 一 维 搜索 (Line 
search). 特别 是 ， 上 面 的 算法 以 问题 (4.5) 的 最 优 解 为 步 长 ， 这 
种 方法 有 时 也 被 称 为 精确 一 维 搜索 (exact line search). 一 维 搜 
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索 里 经 常用 到 的 方法 有 黄金 分 割 搜索 (golden section search) 和 
利用 二 次 或 三 次 播 值 (interpolation) 的 迭代 法 . 但 是 ， 即 使 说 
是 精确 的 一 维 搜索 ， 通 过 有 限 次 计算 求 出 问题 (4.5) 的 严密 解 
一 般 也 是 不 可 能 的 ， 因 此 实际 上 在 得 到 问题 (4.5) 的 有 足够 精 
度 的 近似 解 时 就 采用 它 为 步 长 . 

另外 ,实际 计算 时 不 是 解 一 维 最 优化 问题 (4.5), 而 是 经 常 


找 出 满足 某 个 适当 条 件 ， 比 如 同时 满足 下 面 两 全 不 等 式 的 大 于 
0 的 把 它 当 做 步 长 e. 


FP + d) < f(a09) + Br f(r Tat 
{ (4.6) 


V f(a9 十 tdt) Td > YI f(a T 


这 里 ， 8m y 是 满足 B < (01/2) 及 v € (5,1) 的 常数 . 现 
E, ELEA v: R> R, plt) = F7 td). 因为 or 人 = 
VSEE q taI, 条 件 (4.6) 可 以 改写 为 


elt) € pl0) + 6tu'(0) 
p(t) > ye (0) 


图 42 示意 了 满足 条 件 (4.6) 的 上 的 范围 .从 图 42 可 以 看 出 ， 
求 满足 条 件 (4.6) 的 上 对 应 于 求 出 一 维 最 优化 问题 (4.5) 的 粗略 
近似 解 ， 所 以 经 常 被 称 为 非 精 确 一 维 搜索 (inexact line search). 
采纳 非 精 确 一 维 搜索 的 结果 ,与 精确 一 维 搜索 相 比 ， 虽 然 有 些 
情况 下 梯度 法 的 选 代 次 数 要 增加 , 但 是 每 次 一 维 搜索 搜索 所 要 
的 计算 量 少 ， 所 以 特别 是 对 于 计算 函数 值 很 耗 工夫 的 问题 ， 从 
整体 来 说 在 很 多 情况 下 可 以 提高 计算 效率 . 
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PO + Bre't0) 


E 
HELL ELIT 


图 4.2 非 精 确 一 维 搜索 


如 果 某 迭代 法 生成 点 列 的 极限 OR i), 在 适当 假定 下 ， 可 
以 保证 与 初始 点 无 关 且 恒 为 问题 的 最 优 解 (或 者 稳定 点 ) 则 称 
RIAA 全 局 收敛 性 (global convergence property)U, 与 此 相 
反 。 如果 在 解 的 附近 选取 初始 点 的 话 , 可 以 保证 所 生成 的 点 列 
LE Ra] MESS TUE E FR BBC S tE (local convergence 
property). 关于 上 面 所 讲 的 梯度 法 的 全 局 收敛 性 ， 成 立 下 面 的 
定理 . 

定理 4.1 (梯度 法 的 全 局 收效 性 ) ”假定 对 于 任意 初始 点 
zO e, 集合 (ze R"|f(z) < F(2)) 9, 而 且 对 Nxn 对 
WEB FE SU FU {万 (9}, 存在 满足 


MW yy HU y < AyTy (ye R^, k= 9,1,...) 
的 常数 A 0 1» 0. 这 时 ， 梯度 法 算法 所 生成 的 点 列 {fzto} 的 任 
意 聚 点 是 问题 (4.1) 的 稳定 点 . 


该 定理 讲 的 是 梯度 法 全 局 收 伍 于 ( 比 局 部 最 优 解 更 弱 的 概 
X) 稳定 点 . 但 是 在 一 般 情况 下 ， 不 妨 认为 根据 梯度 法 实际 找 


1) 注意 全 局 收效 性 并 不 是 保证 收 化 于 全 局 最 优 解 的 概念 . 
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出 的 稳定 点 是 问题 的 局 部 最 优 解 . 然而 ,问题 有 多 个 局 部 最 优 
解 时 ,梯度 法 收敛 于 哪个 解 一 般 依赖 于 初始 点 的 选取 方法 ， 为 
此 ,实际 诗 算 中 ， 用 用 个 初始 点 进行 计算 ， 在 所 得 到 的 局 部 最 
优 解 中 采用 最 好 者 作为 问题 的 解 ， 这 种 做 法 很 普遍 . 

其 次 ， 考 虑 有 关 梯 新法 的 收 伍 速度， 首先 ， 为 简单 起 见 ， 
假定 目标 函数 为 如 下 的 凸 二 次 函数 : 


f(r) 一 ES 一 crz (4.7) 


这 里 ,函数 了 的 海 赛 矩 阵 BOX IDEE ERIS. 显然 ,问题 (4.1) 有 
唯一 的 全 局 最 优 解 x* = Be 根据 定理 1, 梯度 法 生成 的 点 
IAAF x*. 另外 。 关 于 其 收敛 速度 ， 知 道 有 下 面 的 结果 . 


定理 4.2 (梯度 法 的 收 化 速 朗 ) 若 目 标 西数 是 式 UT) 所 
定义 的 西 二 次 函数 , 对 于 执行 精确 一 维 搜索 的 梯度 法 算法 生成 
的 点 列 (209) REFR: 
W) UD A? 
roo ren (irae) Ue m- rej 
(k= 0,1,...) (4.8) 


这 里 ，z* = Ble MO 和 mU? A SERESB EE (HOD Bros 
的 最 大 和 最 小 特征 秆 9. 另外 , BER (H19) 7 B( HO) 7? 是正 
EW, k MP > mU > 9. 


该 定理 表达 了 ,在 点 nU 的 目标 函数 值 (n6) 和 最 小 值 
f(z*) 的 差 , 在 每 次 选 代 里 按 比率 (UM 9 m 09) / UM O9 pn < 
1 减少 下 去 . 特别 是 , 在 最 速 下 降 法 里 , 因为 百倍 = 了 MOD m OO 
等 于 (FRATAR k N) 函数 f 的 海 赛 矩阵 BB 的 最 大 及 最 小 


1) 对 于 任意 的 正定 对 称 矩阵 A, 存在 有 唯一 的 正定 对 称 矩阵 C 满足 A = CC. 
把 该 矩阵 记 为 A2. 
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特征 值 . 于 是 , 若 令 互 的 最 大 特征 值 为 M, 最 小 特征 值 为 m, 则 
X (4.8) ERUF. 
Fe) 一 Fe ) 


< (YF) (em - re] 


- (IHY tet - se) (-91.) (49) 


Tt 
这 里 ，T = Mím (> 1) 一 般 称 为 矩阵 B 的 条 件数 (condition 
number). 它 是 表达 二 次 函数 (4.7) 性 质 的 重要 指标 ， 特 别 是 ， 
根据 式 (4.9), 可 以 认为 条 件数 + 很 小 (接近 1) 时 ， f(z 中 ) 快 
速 收敛 于 最 小 值 f(z*). 相反 ， (BOE SER IRE (图 4.3)- 


图 4.3 最 加 下 降 法 的 收 敏 速度 和 条 件数 


下 面 ， 考 虑 点 xb 以 怎样 的 速度 收敛 于 最 优 解 z*. 根据 式 
(4.9) 有 


2k 

) (em-e) ez 
(4.10) 

另 一 方面 ， 由 二 次 函数 的 性 质 ， 对 矩阵 B 的 最 小 特征 值 m 成 

x4 


. 了 一 1 
169) - re < (223 


f) — f(x) > Flle- a*i? (ze R”) (4.11) 
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所 以 根据 式 (4.10) 和 (4.11), 结果 有 


T-21W* 
ets? — z*]l en) (k—1,2,..) (4.12) 
GX E, c = V/2(f(x(9) — f(z*))/m). 这 个 结果 表明 ,点 列 {z(} 线 


性 收 伍 linear convergence) 于 z*. 

上 面 考 虑 了 针对 二 次 函数 的 梯度 法 之 收敛 速 度 . 即使 目标 
函数 为 一 般 的 非 线 性 函数 的 时 候 也 成 立 同 样 的 结果 . 特别 
是 , 执行 精确 一 维 搜索 的 梯度 法 所 生成 的 点 列 {x} 收 化 于 问 
RE (4.1) 的 局 部 最 优 解 z*. 海 赛 矩阵 V?f(x*) 为 正定 的 时 候 , 成 
立 有 


2 


NECEM CON 29-1 
unn y Ge < aew (farg) ^ wm 


这 里 RUM 是 矩阵 (HOY? f(e*) HOO)? fo e PE TE, 特 
别针 对 最 速 下 降 法 ， 若 令 在 点 x* 的 海 赛 矩 阵 V7f(a*) 的 条 件 
数 为 7*, 则 成 立 


eD) fre) | (r-1Y 
lmsup fz) — (m) S «(z 2 6n (t14) 


AE BD, E T E S E E ER AKEE ETF ERAR x^ 
&k E PREA cát dg dE Xe PE BO A PEE t 的 值 ， 必须 认识 到 ， 因 为 
在 实 妹 问题 里 多 数 情况 下 r DERAK, EAA RE TF A 
解 问题 ， 则 需要 相当 多 的 迭代 次 数 . 

1) 一 般 , 如 果 存 在 常数 <>0 和 0<r<1 当 大 是 够 大 时 成 立 ||z(*) 一 z*|| < ert 
的 话 , 就 称 点 列 (509) R-1 KEA F zt, 如 果 成 立 Js 一 zj € rle -at 
的 话 ， 就 称 为 Q-1 UE SE. Q-1 UCUE GEB AR PL SE R-1 UO SE. (B d SEGK 
BER. 这 里 ，Q quotient, R 是 root 的 意思 ,在 没有 特地 明确 区 别 两 者 的 
必要 时 ,公称 (25) 一 次 收效 于 x, RA (09) 的 HR SEXE. (convergence rate) 
是 一 次 - 
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4.3 牛顿 法 


在 梯度 法 的 各 次 迭代 中 ， 若 选取 与 V*f(z*) 的 着 矩阵 接近 
的 矩阵 作为 HO, 则 矩阵 (HOD A2 7? p (gn (gti 近似 等 于 单 
位 矩阵 、 这 时 ， 该 矩阵 的 条 件数 O 几乎 等 于 1, 所 以 根据 式 
(413), RT ELS & A3 (200) 非常 快 收 丝 . 

特别 地 ， 在 目标 函数 为 凸 二 次 函数 


f(z) = jz7Bz -crz (BAERI) 


的 情况 下 ， 对 任意 的 > 因为 V?f(z) = B, 在 第 一 次 选 代 里 令 
HO = g-i Wj 


d) = -HOY f(s) =p (Bz 一 e = (r0 gr) 
这 里 ， e*s B-le 是 问题 的 最 优 解 ，z0) rt, 这 时 如 果 记 
PD = FG? + td) = f(O qe un) 


则 因为 


PO -V (0 — iat — 22)" (s -an) 
-Ce cnm y mae) 
-ü-9(som- z)'s (i - 2) 
根据 精确 的 一 维 搜索 条 件 vr) = 0, 步 长 成 为 ko) ~ 1 于 是 ， 
r a9 4 qtu ge 
由 此 知道 , 不 管 初始 点 20 如 何在 一 次 迭代 后 到 达 最 优 解 n 
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根据 这 个 事实 ,可 以 认为 即使 对 于 一 般 的 非 线 性 函数 /, 各 
ARES 


HO) = Yf) 
MERRI H 
dD = -V f(a 09-1 a) (4.15) 
是 合适 的 . 特别 是 , 对 于 该 搜索 方向 dtt), 步 长 恒 为 1 的 选 代 法 
AD 一 z( dk) = O L yf (2) LT pu) (4.16) 


称 为 牛顿 法 (Newton method). 由 式 (4.15) 给 出 的 搜索 方向 d? 
称 为 牛顿 方向 (Newton direction). 对 牛顿 法 成 立 下 面 的 定理 . 


定理 4.3 (牛顿 法 的 局 部 收敛 性 和 二 次 收 敏 性 ) 目标 函数 
下 的 海 奏 答 阵 为 李 普 希 闪 连续), 在 问题 (4.1) 的 局 部 最 优 解 x* 
处 V?f(z") 正定 . 这 时 , 如 果 选 取 初 始点 z(0) 与 z* 充分 接近 ， 
则 牛顿 法 (4.16) 所 生成 的 点 列 zt 收敛 于 z*. 进一步 ， 存 在 某 
个 常数 ?> 0, 对 所 有 的 大 成立 


Iz **? — zl < nll 一 ze (4.17) 


对 足够 大 的 任意 式 (4.17) 成 立时 ， 称 z(9 二 次 收效 
(quadratic convergence) 于 z*, 也 称 收 敏 率 为 二 次 . 因为 二 次 收 
敛 一 般 意 味 着 收敛 非常 快 ， 所 以 定理 4.3 表明 牛顿 法 在 收 伍 速 
度 方面 育 非常 出 色 的 特性 . 

但 是 ， 式 (4.16) 的 牛顿 法 里 ， 如 果 不 在 解 o^ 的 附近 选取 初 
始点 O, 那么 生成 的 点 列 O 未必 收 敏 于 最 优 解 .为 保证 全 


1) 所谓 V^f(z) 为 E E iE E (Lipschitz continuous) 是 说 ， 对 于 某 个 常数 
L> 0 RA IV? f(z) V fw) S Elle — yll, Gv € R”). 
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局 收敛 性 ， 有 必要 对 和 牛顿 法 作 某 些 修正 .作为 方法 之 一 ， 可 以 
考虑 像 下 降 法 的 情况 一 样 导入 一 维 搜索 . IM LL EN 
数 f OBSS GERE PE VI Go) 恒 为 正定 的 特别 情况 外 ， 一 般 式 (4.15) 
的 牛顿 方向 dUO 未 必 成 为 的 下 降 方向 , 所 以 照搬 原 拌 使 用 一 
维 搜索 是 不 合适 的 . 

EDGE ESO 信赖 域 法 (trust region method) 是 不 执行 一 维 
搜索 而 使 牛顿 法 有 全 局 收敛 性 的 方法 . 它 因 在 理论 上 出 色 而 闻 
B. 

首先 注意 ， 牛 顿 法 的 选 代 (4.16) 可 以 看 成 是 先 求 得 使 了 的 
ES ELE 


F)(d) = f(z 9) V f(aP)Ta e lgrgs (sta (4.18) 
2 


在 点 zt 达 最 小 的 = do, 然后 由 z+ = aad 确定 下 一 
步 的 点 (图 4.4 的 虚线 表示 各 次 类 代 里 二 次 逼近 函数 FO 的 等 
高 线 ). 这 里 ， 向 量 4 表示 从 当前 的 点 O 开始 的 位 移 . 当然 ， 
为 了 让 该 方法 有 意义 海 赛 矩阵 VIS) 必须 为 正定 的 ， 


图 4.4 牛顿 法 的 收 敏 


但 是 ， 在 上 为 一 般 的 非 线性 函数 的 情况 下 ， 式 (418) 的 二 
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次 函数 PUO 仅 在 点 z( 的 邻 域 里 成 为 了 的 近似 才 有 意义 .于 
是 ， 可 以 认为 ， 即 使 使 用 牛顿 法 ， 也 要 限定 在 点 nU 的 适当 的 
ES FEE 在 该 邻 域 里 使 函数 FO 最 小 的 d= db 确定 下 一 
步 的 点 ze+ .也 即 ， 对 某 个 常数 AU > 0， 解 二 次 函数 的 最 小 
化 问题 


目标 函数 : FÜNd) 一 最 小 . (419) 
HRE H llall «aU 


利用 其 解 dO 确定 下 一 步 的 点 


gn ing) 十 df 有 


RE, |d| = V/ATd. 称 该 问题 的 可 行 域 为 信赖 城 (trust region). 
因为 它 是 有 界 闭 集合 ,即使 海 赛 矩阵 V2f(z(*)) 不 是 正定 的 ， 问 
是 (4.19) BAR dO. 决定 信赖 域 大 小 的 久 若 太 大 则 问题 (4.19) 
不 能 说 成 是 对 原来 问题 的 适当 逼 返 ， 相 反 若 太 小 则 KEE 
的 更 小 ， 会 增加 收敛 所 需要 的 迭代 次 数 . 于 是 ， 有 必要 在 各 次 
迭代 里 ,一 边 检查 当前 的 信赖 域 半径 AW 的 大 小 是 否 适当 ， 一 
边 热 行 计算 ， 具体 地 ， 可 以 考虑 如 下 算法 . 


算法 TR (信赖 域 法 ) 


第 一 步 {初始 化 ): 选取 常数 0<j cu clOcqmclea (E 
如 ， pi = 02.42 = 0.9, = 0.5, 55 = 2). 选取 适当 的 初始 
点 xU < Rn 和 正 数 kO, 令 天 :二 0: 


第 二 步 (位 移 向 量 的 计算 ): 令 := RU, 解 问题 (4.19) 求 出 向 量 
40. (如果 49 = 0 则 结束 计算 ，) 


第 三 步 ( 选 代 点 的 更 新 ): 令 Aj := f(r) fate) quo), A pU) 
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:二 zf) 一 Ed 计算 rt := A FO /AFOD, an Rr 二 
pa 则 zt :一 zt ae) E REQUE 则 ER 


第 四 步 (信赖 域 的 调整 ); 如 果 rt > ua UN Er ME 
果 €XorU < yuQ QW ACD := RO, $n RR r coa 则 
RUD Lm oA RUM A kom ktl 回 到 第 二 步 . 


第 三 步 中 计算 的 AO 是 点 从 zt 移动 到 00 aO 后 目标 

函数 值 的 减少 量 , AFO 可 看 成 是 基于 二 次 逼近 函数 FO 所 推定 
l5 A JO 的 值 .特别 是 , 因为 ds) 是 问题 (4.19) 的 解 ,如 果 d 0 
则 Fa « r(9(0) = f(z), qu BD AFÜ? > 0. 第 三 步 里 的 更 
新 z+ := x00 [Q0 公 限 于 rU — Aaf OAF > au >O, 也 
BU Af 0 的 时 候 ， 所 以 对 应 于 生成 的 点 列 (209) 的 目标 函 
数值 {ffzt5)} 是 单调 非 增加 的 . 
上 面 的 算法 TR 的 基本 思想 可 说 明 如 下 . 信赖 域 的 半径 nO 
的 值 如 果 设 定 得 好 的 话 , 可 以 使 信赖 域 上 通 近 函数 FO 和 真正 
的 和 且 标 函数 f 的 差 很 小 这 时 问题 (4.19) 的 解 dC? 所 确定 的 点 
zE dO) 可 看 成 是 该 领域 内 函数 的 最 小 点 的 一 个 很 好 的 近 
似 . 半径 hU) 的 值 是 否 适当 ， 其 判定 可 以 基于 第 三 步 所 定义 的 
rt 按 如 下 方式 进行 . 首先 在 第 三 步 里 ， 仅 在 目标 函数 值 减少 
得 足够 多 时 (BD rO > uu) 时 从 点 zt 移动 到 z+ d, 减少 不 
多 或 者 反而 增加 时 (nU <m) 下 次 迭代 便 停 在 同一 点 . 在 后 一 
种 情况 下 , 为 了 增加 下 次 迭代 里 目标 通 数 减少 的 可 能 性 ， 在 第 
四 步 里 缩小 信赖 域 的 半径 . 在 前 一 种 情况 下 ， 信 和 赖 域 上 逼近 了 
数 Fo 和 真正 的 目标 函数 了 的 差 可 以 认为 非常 小 时 (r > ea), 
为 了 在 下 次 夺 代 里 点 的 移动 能 大 一 些 从 而 导致 加 速 收敛 ， 需 要 
加 大 信赖 域 的 半径 . 


定理 4.4 (信赖 域 法 的 全 局 收敛 性 和 二 次 收 伍 性 ) 由 信赖 
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域 法 生成 的 点 列 (<0) 如 果 有 界 ， 则 {20} 必 存 在 聚 点 ar 满 
是 问题 (4.1) 的 最 优 性 二 次 必要 条 件 (12). (4.3). 进一步 ， 如 果 
TER A t 处 最 优 性 二 次 充分 条 件 (14) 成 立 ， 则 (399) 二 次 
RRF a. 


执行 一 维 搜 索 的 方法 所 生成 点 列 的 聚 点 ， 一 般 理 论 上 仅 能 
保证 是 问题 (4.1) 的 稳定 点 {满足 最 优 性 的 一 次 必要 条 件 ) (定理 
41) 与 此 相 比 ,该 定理 表示 信赖 域 法 有 非常 强 的 全 局 收 敏 性 . 
虽然 信赖 域 法 在 理论 上 有 这 样 出 色 的 特性 ,但 是 它 的 实际 有 效 
性 取决 于 各 次 选 代 里 能 否 有 效 地 解 出 问题 (4.19) 由 问题 (4.19) 
的 特殊 结构 可 以 断言 ， dg 是 问题 (4.19) 全 局 最 优 解 的 充分 必 
要 条 件 是 ， 存 在 有 满足 下 面 三 个 条 件 D 的 实数 > 0. 


(Vie) + AD) d) 2 vs (4.20) 
lid s A9, A (gat A) =0 (421) 
V? (s P) AI 为 半 正 定 (4.22) 


要 找 出 满足 条 件 (4.20)-(4.22) 的 d? 和 A > 0, 只 要 作 如 下 处 理 
BUR. 首先， 固定 和, 考虑 关于 变量 4 的 联 立 一 次 方程 组 
(vtr + Ar) a - -Vf (4.23) 
把 它 的 解 表 示 为 d( 和 ) (也 即 ,把 (A) E HL A B RE E d) : R> Rh). 
d 的 计算 可 分 成 下 面 的 两 阶段 进行 . 
L 检查 条 件 (4.20)-(4.22) 对 入 =0 是 否 满足 B, V2) 
是 否 正定 ， 而 且 是 否 成 立 da(9jl| < AC. 如果 成 立 ， 则 
4? —d(0) 和 入 =0 满 足 式 (4.20)-(4.22). 


一 一 一” ~- 
1) 条 件 (4.20)-(4.22) 与 4.6 节 要 氢 述 的 针对 带 药 束 最 优化 问题 的 量 优 条 件 相 
关联 尽管 所 考虑 的 问题 (4.19) FRFR HE, SE tgh TRÈ 
性 的 充分 必要 条 件 ， 故 它 不 能 从 后 者 的 条 件 直 浪 推 出 . 
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2. 否则 ， 在 成 立 式 (4.22) 的 范围 内 0 求 出 满足 
la = AA (4.24) 


的 入 >0. 计算 这 样 的 和 时 ， 把 式 (424) 看 成 是 关于 入 的 
非 线性 方程 , 用 适当 的 迭代 法 解 即 可 . 这 样 得 到 的 入 所 对 
应 的 d( 和 ) 是 所 要 求 的 dt 


上 面 所 讲 的 方法 ， 作 为 确定 信赖 域 的 范 数 用 了 欧 凡 里 得 范 
数 . 也 可 采用 其 它 的 范 数 ， 比 如 ，|| 叫 ~ = maxks<n di. 这 时 ， 
问题 (4.19) 成 为 在 各 变量 的 上 下 限 约束 -RD x di < A (i= 
L2,.,2) 下 ,最 小 化 二 次 函数 Fa) 的 问题 ,最 后 ,请 注意 ， 
用 了 欧 几 里 得 范 数 的 信赖 域 法 可 以 看 成 是 非 线性 最 小 二 乘 问 
题 的 强 有 力 的 解法 一 - Levenberg-Marquardt 方法 的 推广 . 


44 拟 和 牛顿 法 


拟 牛 顿 法 (quasi-Newton methods) 是 42 节 所 述 梯度 法 的 一 
种 . 它 在 各 次 迭代 中 决定 搜索 方向 时 ,选取 和 矩阵 HU 为 目标 函 
数 S REEE VE) 的 道 矩阵 之 近似 ， 是 利用 有 关 S 
梯度 的 信息 逐次 更 新 HO 的 方法 - 


算法 QN (WERGE) 

第 一 步 (初始 化 ): 选取 适当 的 初始 点 O < EE 
天 :一 0. 

第 二 步 (搜索 方向 的 计算 ): 计算 搜索 方向 向 量 


1) 在 解 联 立 一 次 方程 组 (4.23) 计算 d) 时 ， 如 果 用 Cholesky 分 解 ， 则 可 同时 
判定 条 件 (4.22). 


131 


d = HOVA) On Rv f(200) = 0 则 结束 计算 ，) 
第 三 步 (一 维 搜索 ): 能 一 维 最 优化 问题 


min f(x Toti!) (4.25) 
求 出 步 长 := LR) git) .= plk) gu). 


第 四 步 BE HO 的 更 新 ): 基于 点 zt 到 +D 的 梯度 向 量 
的 变化 ， 更 新 矩阵 HOD, Weg pen, 令 大 :一 R+1 加 到 第 
二 步 . 
该 方法 的 要 点 是 第 四 步 中 矩阵 HO 的 更 新 . 迄今 为 止 , 提 
出 了 好 几 个 更 新 HO 的 方法 ， 下 而 给 出 的 两 个 更 新 公式 是 其 
中 最 基本 的 . 实际 上 用 起 来 它们 被 认为 是 很 有 效 的 . 
Davidon-Fletcher-Powell (DFP) 公式 : 
SOOT HOY (ye THK) 
(sry (y(9)T H yE) 


(4.26) 


HED genu. 


Broyden-Fletcher-Goldfarb-Shanno (BFGS) 公式 : 


HHD. PIS +h GENT H yk) s (sT 
` Ey Ty 


2 人生 再 (9 + HOYT 
- ( GU ) (4.27) 


这 里 ， st := gU L 00 yd e Vf(z**D) FF). 如 果 
(s()Ty) > 0 (4.28) 

则 根据 这 些 更 新 公式 确定 的 矩阵 HO 有 
HU :正定 对 称 = pen 正定 对 称 (4.29) 
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的 性 质 . 另外 ， 在 拟 牛 顿 法 算法 QN 的 第 三 步 里 执行 式 (4.25) 
的 精确 一 维 搜索 时 ， 条 件 (4.28) 恒 成 立 ， 其 原因 是 ， DEL 
20019470 由 式 (4.25) 确定 ， 故 有 

V f(a Et =0 


根据 O = 100909, 609 > 0, qU) — -HOY fat) 及 HU) 的 正定 
性 成 立 有 
(s) T 09 Lato quor (vot - Vr) 

= (TY f(s) 

= aU quayr (a) am 20 
上 面 的 性 质 (4.29) 保证 了 搜索 方向 向 量 dU? 便 为 目标 函数 J£ E 
点 xU 的 下 降 方向 ， 所 以 拟 牛 顿 法 可 看 成 是 4.2 节 梯 度 法 的 一 
种 . 

像 这 节 开 始 讲 的 那样 ， 把 矩阵 HUO 取 成 V) 之 近 

似 是 拟 牛顿 法 的 基本 思想 . 它 的 实现 要 求 有 下 面 的 正 割 条 件 
(secant condition), 也 称 为 拟 牛 顿 条 件 (quasi-Newton condition). 


HEH y(t) = stk) (4.30) 


实际 上 ， 如 果 了 为 二 次 函数 f(x) = 3z7Bz 一 crz, 则 对 任意 的 = 
成 立 有 V?f(z) = B, 而 且 


y = V (aD) Ly ps 9) = 再 [zt ~ 40) = ps) 


所 以 
V3 (gy 一 S09 
恒 成 立 . 于 是 ,即使 对 一 般 的 非 线 性 函数 f, 要 求 它 的 海 赛 矩阵 
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V? f(D) fg gs dg pe 2 dz 44 HD 满足 正 害 条件 (430) 是 很 
自然 的 . 另外。 DEP 公式 或 者 BFGS 公式 所 定 的 HOT 满足 
式 (4.30). 

下 面 的 定理 表明 ， 当 目标 函数 为 凸 二 次 函数 时 ， 氢 午 顿 法 
具有 在 低 于 变量 个 数 的 选 代 次 数 里 找 出 最 优 和 解 的 显著 特征 . 


定理 4.5 (针对 二 次 函数 的 拟 牛 顿 法 的 有 限 收 效 性 ) 目标 
REC S UE HBE f(z) = #z7Bz - crz, HERE BH nxa 
正定 对 称 . 这 时 ， 利 用 DFP 公式 或 者 BFGS 公式 的 拟 牛 顿 法 最 
多 在 ”次 迭代 里 找 出 问题 (4.1) 的 (全 局 ) 最 优 解 z* = B'e. 5 
外 ,特别 地 在 第 n 次 迭代 得 到 最 优 解 时 成 立 HOO = B, 


对 一 般 的 非 线性 函数 所 牛顿 法 的 理论 上 的 收敛 性 还 不 是 太 
明确 - 下 面 的 定理 ， 是 其 为 数 不 多 的 结果 中 的 一 个 . 


定理 4.6 (针对 征 画 数 的 拟 牛 顿 法 的 全 局 收 伍 性 和 收 误 事 ) 
假设 目标 函数 了 的 海 赛 矩阵 V2f(z) 一 致 正定 ， 也 即 存在 某 个 
常数 入 >0 使 得 


y^ V? f(z)y > MTy (y € R") (4.31) 


对 任意 的 > cO R? Rr OU. 这 时 用 DFP Zh HUE HL E n 8 
点 列 (200) 收 化 于 问题 (41) 的 (全 局 ) 最 优 解 2*. 而 且 ， 如 果 
BEERE V?f(z) 关于 = 李 普 希 兹 连续 ， 则 


ja IE? -erl 
im le 
AT 


(4.32) 


BE. 


2 在 这 个 假定 下 ， 函 数 了 LLLI ESILEIIA 
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xk (4.32) 成 立时 称 点 列 (2095) 超 线性 收 敏 (superlinear con- 
vergence) F ,或 者 称 收 黎 率 为 超 线性 . 虽然 超 线性 收敛 是 介 
于 线性 收 伍 和 二 次 收敛 的 概念 , 但 是 事实 上 可 以 看 成 接近 二 次 
DS (EX S In 

另外 ， 上 述 扎 牛顿 法 的 算法 里 假定 了 执行 精确 一 维 搜索 ， 
但 在 实际 计算 中 执行 42 节 所 述 的 “ 非 精 确 " 一 维 搜索 (参照 式 
(4.6)) 的 祖 况 很 多 . 

到 现在 为 止 讲 的 拟 牛 顿 车 是 对 海 赛 矩 阵 的 逆 矩 阵 进 行 逐次 
B. 作为 别 的 方法 ， 也 有 通过 对 海 赛 和 矩阵 本 身 进行 允 近 的 矩 
阵 BO, 解 一 次 方程 组 


Bg = -V f(z) 


来 求 出 搜索 方向 d. (EOS E BEI AER EER BO 的 方 
ik. WD HUO 的 情况 一 样 ， 下 面 的 两 者 具有 代表 性 . 
Davidon-Fletcher-Powell (DFP) 公式 : 


BD io goo 4 (14 CEBO) yy yr 
: N C 


y 9 (509)T BU) 4. BO yT 
- GOF (4.33) 


Broyden-Fletcher-Goldfarb-Shanno (BFGS) 公式 : 


yT BA s) (s)T BO 
CO] 一 {sT BUD sU) 


BED = gor. (4.34) 
把 这 些 方法 称 为 DFP 或 BFGS 公式 是 因为 , 对 于 刚才 的 由 DFP 
公式 (4.26) Er zz B3 HOD 和 由 上 面 的 式 (4.33) 所 定 的 BD, in 
$ HO — (B®), 则 成 立 HORS 一 (BED), 以 及 对 于 BFGS 
公式 (4.27) 和 式 (4.34) 也 成 立 同样 的 关系 . 也 即 , 式 (4.26) 和 式 
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(4.33) ELE st (4.27) 和 式 (4.34) 都 可 以 看 成 是 等 价 的 ， 另 外， 如 
果 (S070 > 0 则 


BO :正定 对 称 BÜTD :正定 对 称 
的 关系 成 立 ， 而 且 正 割 条 件 
B+1) lk) = 
也 成 立 (参照 式 (4.29), (4.30)). 更 有 意思 的 是 , 更 新 H 的 DFP 
公式 里 作 


y > SÜD, SUD, UD. HO), go), green _ gon 


的 替换 就 成 为 更 新 BUO 的 BFGS 公式 ， 对 更 新 HU 的 BFGS 
公式 进行 同样 的 操作 可 得 到 更 新 BU) 的 DFP 公式 .也 即 ， 可 
以 说 DEP 公式 和 BFGS 公式 有 一 种 对 偶 关 革 . 


4.5 dtüppbm;k 


3t e BB Ie iE (conjugate gradient method; CG Tk) ESM 
法 并 列 的 有 代表 性 的 无 约束 最 优化 方法 . 该 方法 不 像 拟 牛顿 法 
那样 每 次 迭代 都 更 新 和 矩阵， 所 以 特别 适应 于 解 大 规模 问题 . 
在 处 理 一 般 的 非 线性 最 优化 问题 之 前 ， 考 察 下 面 的 凸 二 次 
函数 的 最 小 化 问题 . 
目标 函数 : gr Br - es 一 ? 最 小 (4.35) 
RE, sc 是 nn 维 向 量 ，B 是 nxn 正定 对 称 和 矩阵， 该 问题 有 
唯一 解 x* = Boe. 
NFAT n EÉ ry, 当 z7By =0 时 ， 称 zx 和 y 关 于 矩 
RE B HME 或 者 B- H4 (B-conjugate). 特别 是 当 B 为 单位 矩阵 
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时 B- Heap E x,y 相互 正 交 、， 因 此 可 以 把 B- 共 辆 性 看 成 是 
推广 向 量 正 交 性 的 概念 (参照 图 4.5). 另外 ， 容 易 验 证 相互 B- 
HHEH k(n) DIRAE dO, 40, dk- 是 线性 独立 的 . 于 
是 ， 由 向 量 dO, UO UD. 所 张 成 的 子 空间 


k-1 
DE I: € R" |z = > oid 9, 
i-o 
ae R G= 01k} (4.36) 


的 维 数 是 上 ,特别 是 n 个 非 零 B- HARKET LY 
与 全 空间 R" 一 敏 . 


LOLEIIS 


图 4.5 B- HÉRNA (a 和 b&b B— XE. cl d B— 3E) 


下 面 的 算法 称 为 dti A EA (conjugate direction methods), 
CREEZ EDS Ste Be RE QE H3 AE. 另外 ， 问 题 (4.35) 的 目标 
函数 用 f 表示 . 


算法 CD (3t$e 75 fix) 
第 一 步 (初始 化 ): XERUE P3 00 916 rO € Rn. kic 0. 
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第 二 步 (搜索 方向 的 计算 ): ing e — s 则 停止 . 求 出 所 有 的 和 
d. d'*7D. B- tS fe de p DHE dO. (k= 0 时 选取 
任意 的 向 量 为 d) 


第 三 步 (一 维 搜索 ): 解 一 维 最 优化 问题 
min f (20 十 tdt) 


求 出 步 长 H, 0600 Ls r p DdD, As kokt EAR 
二 步 . 


因为 目标 遂 数 是 凸 二 次 函数 ,第 三 步 的 一 维 搜索 里 的 步 
长 由 


(00 uL PFY fia) 

NET ONTON 

显 式 决定 . 这 里 ， 和 下 降 法 的 情况 不 同 ， 搜 索 方向 dU 并 不 限 
于 目标 函数 的 下 降 方 向 所 以 步 长 tU 有 可 能 为 负 . 

对 于 由 共 瑟 方向 法 生成 的 点 列 10), 成 立 下 面 的 关系 : 点 
z05 使 目标 函数 在 集合 LO = zz 中 +L 上 达到 最 小. 这 里 LOO 
是 由 式 (4.36) 所 定义 的 R^ 的 子 空间 . 集合 DOO 是 平行 移动 子 
ZA LY, 使 其 原点 移 至 zt9 后 的 集合 ( 仿 射 空间 ). 特别 地 ， 因 
为 LOO 和 全 空间 R 一 致 。 所 以 点 ze) 是 问题 (4.35) 的 最 优 解 
(当然 ,即使 上 < mn, zt 也 可 能 成 为 最 优 解 ) 于 是 ， 下面 的 定理 
成 立 . 


(4.37) 


定理 4.7 (针对 二 次 函数 的 共 罗 方 向 法 的 有 限 收 钱 性 ) 如 
果 目 标 函 数 f(z) = 3z7Bz - c7z 的 海 赛 矩阵 BEE, Mig 
方向 法 最 多 在 ”次 选 代 后 找 出 问题 (4.35) 的 最 优 解 z* = B'e 
这 里 ”是 向 量 > 的 维 数 . 
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因为 上 面 所 讲 的 共 轿 方向 法 里 并 没 具 体 指明 确定 B- JEAN 
的 搜索 方向 向 量 的 方法 ,所 以 由 该 方法 可 以 构造 不 同 的 算法 . 
实际 上 ， 可 以 证 明 ， 把 前 节 考 察 过 的 拟 牛 额 法 用 于 二 次 函数 时 
上 成 的 搜索 方向 向 量 的 序列 具有 B- 共 辆 性 ， 所 以 拟 牛 顿 法 成 
为 共 生 方 向 法 的 特别 情况 . 属于 共 固 方向 法 类 的 另 一 个 有 代表 
性 的 方法 是 以 下 叙述 的 共 轿 梯度 法 . 该 方法 在 各 次 迭代 里 ， 利 
用 前 次 近代 所 用 的 搜索 方向 及 当前 点 处 目标 函数 的 梯度 , 决定 
与 到 目前 为 止 生成 的 所 有 搜索 方向 有 B- HIX RH AA 
5. 


ur 


算法 CG (te PP HER) 
第 一 步 (初始 化 ): 选取 适当 的 初始 点 oO 6 Ro. 4 k=O. 


第 二 步 (搜索 方向 的 计算 ): 如 果 V/GU) =0 则 停止 . 如 果 大 一 
0 则 令 do := —v (9), ing ko 则 令 


VETV f(a) dl-1) 


VE Te I 


第 三 步 (一 维 搜索 ): 根据 式 (4.37) REPR 1, rD = g 
Pde), 令 天 := 大 +1 回 到 第 二 步 . 
可 以 证 明 算法 CG 生成 的 搜索 方向 向 量 dO ( = 0,1,…) 相 
E B- 共 辑 ， 所 以 由 定理 4.7, 对 某 个 k(< n) 成 立 zt = Be 
进一步 还 知道 , 在 共 亏 梯度 法 里 到 达 解 所 需要 的 渤 代 次 数 一 般 
等 于 召 的 不 同 特征 值 的 个 数 . 进行 变量 的 线性 变换 > = Py, 考 
FAITE 


ft) = fO) = gY PT BPy - (PT 
关于 的 最 小 化 (和 问题 (4.35) 等 价 的 ) ELE. n OE RC (EG 
阵 PrBP 的 特征 值 分 布 集中 的 矩阵 P, 则 可 以 期 待 对 函数 A 
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EIE 尘 时 在 非常 少 的 迭代 后 得 到 解 . 基于 这 种 思想 的 
方法 称 为 使 用 Y Wi A38 B0 36 Se £56 HE iX. (preconditioned conjugate 
gradient methods). È J& Jp 3k 3t 5 Bb He 2 RE JE UE Hs. EA 
前 处 理 的 矩阵 已 最 好 使 得 PTBP 接近 单位 矩阵 ， 但 是 为 决定 这 
种 PP 花 费 太 多 的 计算 是 不 合适 的 .经 常用 到 的 选取 P 的 方法 
Ü. BIS BEA ba 取 P -diag(1/ vbn) 的 单纯 方法 D 和 对 
矩阵 B HITIA Cholesky 分 解 计算 B ~ LTL (L 是 下 三 角 和 矩阵 ) 
m, RP= (LTY! 的 ICCG 法 (incomplete Cholesky conjugate 
gradient method) 等 等 . 

ER e E JURO RO HCE RETE BB i US deam — zx s S 
的 最 小 点 的 性 质 ,但 是 实际 上 ， 因 为 计算 误差 ， dm 的 B- H 
MERRER, 共 往 梯度 法 的 有 了 腿 收敛 性 不 成 立 的 情况 很 多 .这 
时 , 采取 的 方法 有 ， 要么 迁 代 即使 超过 mm 次 也 照样 继续 计算 ， 
要 么 每 n 次 近代 后 把 搜索 方向 向 量 d(* 修正 为 f Wo AEEXE RAE 
方向 ( 称 这 是 重新 启动 (restart) 继续 计算 等 等 . 

E Er HE 00 3C PEER RETE ME HE E— A2 09 dE £e PES E f 的 景 小 
化 也 几乎 照样 适用 . 但 是 ， 第 三 步 的 一 维 搜索 里 ， f 如 果 不 是 
二 次 函数 ， 因 为 步 长 to 无 法 像 式 (4.37) 那样 用 显 式 表示 ， 所 
以 有 必要 用 数值 的 方式 解 一 维 最 优化 问题 求 出 300. 加 上 这 种 
1E IE S 1 At Se EB HE HE OX. Fletcher-Reeves 方法 , 可 以 认为 它 
是 非 线 性 最 优化 的 有 代表 性 的 方法 之 一 。 Fletcher-Reeves 方法 
是 ,由 于 每 n 次 先 代 里 执行 重新 启动 ， 了 的 局 部 最 优 解 收 和 分 于 
,进一步 车 把 在 重新 启动 时 刻 得 到 的 点 列 记 为 200, 00... gu 


MEI =z] 


=0 


ED 
也 即 证 明了 相 也 ”次 的 达 代 选 到 的 点 列 超 线 性 收效 但 是 ， 实 
1) diag(1/ Vui) 表示 以 17VB 为 第 ;i 对 角 元 的 对 角 矩 阵 . 
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际 上 受 计 算 误差 的 影响 ， 仪 能 得 到 类 似 线性 收 合 的 慢 收 得 的 情 
况 也 不 少 . 

于 是 ， 从 实际 的 计算 效率 及 稳定 性 观点 来 看 ， 共 斩 梯 度 法 
林 必 比拟 牛顿 法 等 要 更 好 . 但 是 ， 共 狗 梯 度 法 中 搜索 方向 的 计 
SE EL OL OL FR S E] Br PR CO EB HE, 而 不 必 像 氢 和 牛顿 法 那样 在 每 次 
迁 代 里 更 新 海 赛 矩阵 的 和 逼 近 和 矩阵 ， 并 记忆 它 ， 还 要 用 到 它 . A 
外 一 般 情 况 下 ， 虽 然 问 题 有 大 规模 稀 栈 (sparse) 结构 0) FRI. 
但 是 即使 海 赛 矩 阵 是 稀疏 的 , 拟 牛 顿 法 生成 的 逼近 ( 道 ) 矩阵 一 
最 都 变 为 非 稀 朴 的 ,在 拟 牛 顿 法 里 利用 问题 的 稀 玻 结构 是 很 困 
MENS. 相 比 之 下 ， 当 问题 的 规模 大 而 有 稀 琉 结构 时 ， 共 辐 梯 度 
法 有 利用 该 性 质 极其 有 效 地 执行 计算 的 长 处 . 


4.6 带 约束 最 优化 问题 


该 章 以 下 各 节 考 虑 下 面 的 带 约 东 最 优化 问题 . 


有 是 标 函数 ， f(z) 一 最 小 


(4.38) 
HERPE ci(xz) <0 (i—1,2,.,m) 


这 里 ， 变 量 = 是 nn 维 实 向 量 , 目标 函数 1: R" 一 及 约束 函数 
c: R? Ri=1,....m, 都 假定 为 二 次 连续 可 微 . 

这 里 ， 如 果 了 和 c(i = 1,2,.…m) 都 是 凸 函 数 的 话 ， 问 题 
(4.38) 称 为 凸 规划 问题 (convex programming problem), 可 容易 证 
明 其 局 部 最 优 解 自动 成 为 全 局 最 优 解 . 但 是 在 一 般 的 问题 里 ， 
和 无 约束 情况 一 样 ， 一般 存在 有 几 个 局 部 最 优 解 

为 讨论 问题 (4.8) 的 最 优 解 的 性 质 ， 先 定义 几 个 术语 . 首 
先 ， 当 点 z 是 问题 (4.38) 的 可 行 解 时 ， 称 成 立 有 cla) = 0 的 约 


1) 元 素 几 乎 都 旺 肘 的 矩阵 称 为 硕 师 失 阵 、 
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KRAER > 的 有 效 约束 (active constraint), 其 集合 用 


I(z)-[ilei(z) =0 (i = 1,2,...,m)} 


表示 ， 进 一 步 ， 使 有 效 约束 的 梯度 向 量 Vez) (i € I(z)) 线性 独 
立 的 点 z 称 为 正则 点 (regular point). 下 面 的 定理 所 示 的 条 件 是 
特征 化 非 线性 最 优化 问题 的 最 优 解 的 重要 条 件 ， 按 其 发 现 者 命 
名 为 Kuhn-Tucker 条 件 或 者 Karuxh-Kuhn-Tucker 条 件 . 


定理 4.8 (Kuhn-Tucker 条 件 一 一 次 必要 条 件 ) ”如 果 
点 2" 是 问题 (4.38) 的 局 部 最 优 解 而 且 是 正则 点 ， 则 存在 向 晤 


u” = (uf, Uh Um) M E 


Een (4.39) 
cile") < 0, uf 2 0, uteso") = 0 (i= 12, m) 


M * Yowve(s) =0 


称 向 量 u* 为 HAA RA (Lagrange multipliers). 另外 ， 
式 (4.39) 的 最 后 的 条 件 意味 着 对 所 有 的 i 要 么 如 = 0, 要么 
c;(z^) = 0, 称 之 为 互补 条 件 (complementarity slackness condition). 


Kuhn-Tucker 条 件 ， 在 几何 学 上 意味 着 ， 由 在 局 部 最 优 解 
zt 的 有 效 约束 的 梯度 向 量 Veil(x*) (i € I(27) 生成 的 锥 (y 6 
R |y= Y'a. Vale") a > 066 T(z"))} 包 含有 向 量 -Vf(z*) 
(图 4.6). Kuhn-Tucker 条 件 是 最 优 性 的 必要 条 件 ， 一 般 说 来 即 
使 成 立 式 (4.39), 点 z* 也 未 必 是 问题 (4.38) 的 局 部 最 优 解 . 但 
是 ， 问 题 为 凸 规划 问题 时 ， 式 (4.39) 成 为 最 优 性 的 充分 必要 条 
d. ` 
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EIE AM II 


图 4.6 Kuhn-Tucker 条 件 的 几何 学 解释 
JRULÉR xt 处 有 效 约束 的 梯度 Vei(zT) 和 Ver(et) 
ERDHE (阴影 部 分 ) 包含 有 向 量 -Vf 


如 果 考 虑 函数 的 二 次 微分 系数 ( 海 赛 矩阵 ), 可 以 得 到 下 面 的 
定理 4.9 及 定理 4.10 所 示 的 二 次 最 优 条 件 . IX B, Com R 
是 

£(z,u) = f(x) + wein) (4.40) 


i=l 
所 定义 的 拉 格 朗 日 函数 (Lagrangian), 把 它 的 关于 z 的 海 赛 短 
阵 表 示 为 


V3c(z,u)- V^f(r)- 5 ui Vci(z) 


i=l 


另外 ， 定 义 在 (可行) 点 2 的 可 行 域 的 切 空间 (tangent space) 
为 
M(z) = {y € R” | Vez) y =0(ie 1(7))} 


切 空间 M(z) 是 对 在 点 z 的 有 效 约束 决定 的 可 行 域 边 界 进行 线 
性 通 近 的 集合 ， 它 是 RT 的 子 空间 . 
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定理 4.9 (二 次 必要 条 件 ) ”如 果 点 z* 是 问题 (4.38) 的 局 部 
最 优 解 而 且 是 正则 点 ， 则 存在 满足 Kuhn-Tucker 条 件 (4.39) 的 
TrdPBHE HW ut, 并 且 成 立 
VT V2£(z*u')g 2 0 (y € M(a^) 


定理 410 (二 次 充分 条 件 ) 假定 (z*,u*) 满足 Kuhn-Tucker 
条 件 (1.39). 而且 对 所 有 的 ;= 1,2, sm. 成 立 狭义 的 互补 条 件 


ci(z*)-0— w 0 


这 时 如 果 
y V2C(z*,u)y » 0 (y € Ml(z'), yy 0) 
则 z* 是 问题 (4.38) 的 局 部 最 优 解 . 


定理 4.9 和 定理 4.10 是 41 节 所 述 的 对 无 约 东 问题 的 二 次 
最 优 条 件 推广 后 的 结果 ， 但 是 和 无 约束 情况 不 同 ， 这 里 限定 
在 可 行 域 的 切 空间 Mlz*) 上 考虑 拉 格 朗 日 亢 数 的 海 赛 矩阵 之 
CEO 正定 性 . 对 些 可 说 明 如 下 ; 检查 点 x+ 的 最 优 性 时 ， 可 以 
考虑 在 线性 逼近 可 行 域 的 子 空间 Mz") 上 现 察 目 标 函 数 的 情 
HL. 因为 线性 通 近 丢失 了 约束 函数 的 高 次 信息 ， 为 补 全 它 ， 利 
肌 目 标 函 数 和 各 约束 函数 的 加 权 和 的 拉 格 朗 日 函数 的 海 赛 矩 
阵 表现 整个 问题 的 二 次 信息 . 也 即 ， 在 线性 通 近 约 东 条 件 后 ， 
所 有 的 非 线 性 成 分 全 综合 表示 在 拉 格 朗 日 函数 里 . 这 时 拉 格 朗 
HR u 表示 的 是 问题 里 各 约 东 条 件 的 权 ( 相对 重要 度 ) 


4.7 逐次 二 次 规划 法 


针对 带 约束 非 线性 最 优化 问题 ,迄今 为 止 提出 了 各 种 各 样 
的 解法 . 这 节 介 绍 其 中 现在 被 认为 是 最 有 效 方法 之 一 的 逐次 二 
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次 规划 法 (successive quadratic programming; 也 称 SQP 法 ). 所 
谓 二 次 规划 问题 (quadratic programming problem) 是 约束 函数 
为 线性 ， 目 标 函 数 为 二 次 的 特殊 非 线性 规划 问题 . 特别 是 ， 针 
对 唔 目标 函数 的 二 次 规划 问题 ,存在 有 能 在 有 限 次 运算 里 找 出 
最 优 解 的 有 效 算法 . 顾名思义， 逐次 二 次 规划 法 是 对 给 定 的 一 
般 非 线性 规划 问题 用 二 次 规划 问题 进行 逐次 台 近 ， 生 成 收 倒 于 
待 求 的 最 优 解 的 点 列 的 方法 . 

针对 带 约束 最 优化 问题 (4.38) 的 逐次 二 次 规划 法 里 ， 第 天 
次 迭代 中 给 定点 人 < R" 时 ， 作 为 子 问题 解 下 面 的 二 次 规划 
问题 . 


目标 函数 ， Vf) d+ 3dTB'a 一 最 小 
HIRR: alat) + Vei(z?)Td «0 (i—1,2,..,m) 


这 里 Bt 是 六 xz 正定 对 称 矩 阵 . 如 果 用 we Rw 表示 拉 格 朗 日 
乘 数 ， 那 么 针对 该 二 次 规划 问题 的 Kuhn-Tucker 条 件 可 写成 ， 


(4.41) 


VJE) + Bog + S uVei(a?)) =0 


:于 
4.42 
c(a) + Vei(z)7d x0, v; 20 (i=1,2,...,m) (4.42) 


vi(ei(a(9) - Vei(zi8)Tq) = 0 (i —1,2,.,m) 


A5. REEM BOO 的 正定 性 、 问 题 (441) 为 凸 规划 问题 ， 只 
要 可 行 域 不 是 空 集合 就 保 让 有 唯一 的 最 优 解 . 以 下 假定 问题 
(4.41) 的 可 行 域 为 非 空 集 合 ， 满足 Kuhn-Tucker 条 件 (4.42) 的 向 
量 对 表示 为 (09, 000). 

现在 ， 假 设 解 子 问题 (4.41) 得 到 (400,009). a, ng 
d? = 0, WHE (d, v) = (0,909) 代入 到 式 (4.42) 里 和 式 (4.39) 比较 
后 .可 以 知道 (zi = (xt), 009) 满足 针对 问题 (4.38) 的 Kuhn- 
Tucker 条 件 (4.39). 也 即 ， 因 为 zt 是 满足 问题 (4.38) 的 最 优 条 
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件 的 点 ， 把 待 求 的 解 看 成 是 已 得 到 者 ， 结 束 选 代 . 

另 一 方面 ， 如 果 dO o, 把 向 量 dO 作为 搜索 方向 ， 通 过 
接近 问题 (4.38) 最 优 解 来 确定 下 一 步 的 点 ztk+D, 与 目标 函数 
最 小 化 的 同时 也 必须 考虑 满足 约束 条 件 、 (现在 的 点 (to 未必 
是 问题 (4.38) 的 可 行 解 . ) 因此 ， 作 为 实现 这 两 个 不 同 目 标的 
尺度 ， 引 进 罚 函 数 (penalty function) 


F(z) = f(r) r$ max {0, ci(z)} 
i=l 


ESIXIPSELEEILELDIDLIE IS 的 第 二 项 ， 当 点 
z 是 问题 (4.38) 的 可 行 解 时 为 0, 否则 取 相 应 于 约束 条 件 的 不 
满足 度 的 正 值 . 所 以 可 以 认为 是 约 东 条 件 遭 到 破坏 时 受到 的 惩 
T. 也 就 是 , 借助 于 最 小 化 罚 函 数 ESL 同时 达到 问题 (4.38) 的 约 
束 条 件 的 满足 化 以 及 目标 函数 的 最 小 化 目标 . 于 是 特别 地 ， 当 
(z*,u*) 满足 针对 问题 (4.38) 的 二 次 充分 条 件 (定理 410) 时 ， 选 
取 足 够 大 的 释 罚 参数 ， 使 得 + max(uj,... uz), 则 za* 成 为 无 
约束 最 优化 问题 


BRES: Fhe) — 最 小 


的 局 部 最 优 解 . 于 是 在 设 定 + 为 足够 大 值 的 基础 上 ， 通 过 减 
少 罚 函数 玉 的 值 来 确定 下 一 步 的 点 z(*+1), 就 可 以 期 望 能 够 得 
到 所 要 求 的 最 优 解 的 更 好 的 近似 解 . 

很 幸运 , 可 以 证 明子 问题 (4.41) 的 解 dt 是 ( 当 > 足够 大 时 ) 
BA F 在 点 zx 中 的 下 降 方 向 . 于 是 , 通过 对 函数 F 进行 一 维 搜 
R, 可 以 确定 点 EHD =p ttd 使 之 满足 tD) < f(z 的) 

综述 以 上 计算 过 程 ， 可 以 得 到 下 面 的 算法 . 


算法 SQP (逐次 二 次 规划 法 ) 
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第 一 步 (初始 化 ): 选取 适当 的 初始 点 r < R^, n xn 正定 对 称 
矩阵 DO, 足够 大 的 常数 > > 0. 4 ki 0. 


第 二 步 (计算 子 问 题 的 解 ): 解 二 次 规划 问题 (4.41), 求 出 满足 式 
(4.42) 的 向 量 对 (400,909), (如 果 a0? — 0 则 结束 计算 ，) 


第 三 步 (一 维 搜索 ): 解 一 维 最 优化 问题 


i (k) k) 
min F(z + td) 


求 出 步 长 O, UD := tb p d, 
第 四 步 (矩阵 BO 的 更 新 ): 更 新 DUO, 确定 新 的 正定 对 称 矩阵 
BD, $ k:=k+1 回 到 第 二 步 . 


算法 的 第 四 步 里 有 关 短 阵 DUO 的 更 新 方法 在 后 面 要 讲 . 在 
此 之 前 ， 先 综述 有 关 该 算法 的 全 局 收敛 性 的 结果 - 


定理 4.11 (逐次 二 次 规划 法 的 全 局 收效 性 ) ”假定 由 逐次 
二 次 规划 法 的 算法 生成 的 点 列 (5003, (409), (009) 有 界 ， 进 一 
PERI (B00) 一 致 有 界 而 且 正 定 ， 也 即 存在 满足 
AdTd x 上 Bod<Adrd (de R", k 20,1,..) 


的 常数 A > 和 > 0. 这 时 ， 如 果 选 取 的 惩罚 参数 > 充分 大 ， 则 
(202) 的 任意 的 聚 点 z* 满足 针对 问题 (4.38) 的 Kuhn-Tucker 条 
m . 
逐次 二 次 规划 法 的 收 仑 速 度 在 很 大 程度 上 六 赖 于 如 他 确定 
矩阵 BC, 直面 说 明 ， 针 对 仅 包 含 下 面 的 等 式 约束 的 问题 ， 基 
于 拟 牛 顿 法 的 思想 来 确定 矩 降 BO 的 方法 . 
目标 函数 ， f(z) 一 ;最 小 
约 东 条 件 : c(r)—0 


(4.43) 
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这 里 oz) = (eG) enr) sss (2))T. EIE XB DRE c R 
RUOR] nox m T WI Ho SS Bi da A 


Vele) = (Vei(z), Ves(z), .., Vez ()] 


那么 针对 问题 (4.43) 的 逐次 二 次 规划 法 里 的 于 问题 成 为 如 下 的 
等 式 约束 二 次 规划 问题 D. 


BRRR VT+ dB -最 小 


(4.44) 
HRR e(a) Vert) = 9 


针对 该 问题 的 Kuhn-Tucker 条 件 可 以 写 为 


Vf(z?) 4. Bd 4 Vez) o — 0 
e(z?) + Ve(a))Td — 0 


所 以 其 最 优 解 UO 和 拉 格 朗 日 乘 数 vt) 满足 
V fixt) poo Vefrit] fac 0 
| e(a) | + me o | [| 7 [. m 


另 一 方面 ， 针 对 问题 (4.43) 的 Kuhn-Tucker 条 件 成 为 了 3 


{ Vf(z) - Vc(z)u 20 
(4.46) 
e(z) 20 
利用 式 (4.40) 所 定义 的 拉 格 郎 日 函数 £, 这 式 可 以 写成 
Ma M 
V£(z,u)- - (4.47) 
V.C(z,u) 0 


1) 二 次 规划 子 问题 的 约束 条 件 的 形式 ， 根据 原来 问题 的 约束 条 件 决 定 
2) 和 式 (4.39) 不 一 样 ， 等 式 约 束 的 情况 下 没有 对 拉 格 明日 胀 数 的 非 负 条 件 . 
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RE, VA v, 分 别 表 示 关 于 变量 x 和 4 的 微分 把 式 (4.47) 
看 成 是 以 (su) 为 变量 的 非 线性 方程 ， 利用 牛顿 法 则 得 到 下 面 


RS k fest. 
em] z nv 
[emm ww 
RE, (Ar, Au) UELLE AR A, 
VLEO, u) + actzto ut) 四 -0 (4.49) 
Au 


但 是 因为 


VC(eto alt) = M + Vefa) "| 


cfa) 

| V2C(r 9), 40) Ve(z()) 
Vieh uin) = | Ve(z (yr 0 | 
式 (4.48), (4.49) 可 以 改写 如 下 ， 


Vfl) V2 (x0), uU) Ve(z(9)] [x60 _ yk) 
c(z09) Ve(g T o uU) 


把 它 与 式 (145) 进行 比较 ， 如 果 puo = VÈC(E ul), 则 可 以 
知道 ， 针 对 问题 (4.43) 的 Kubn-Tucker 条 件 ( 非 线性 方程 ) 的 牛 
上 顿 法 的 选 代 ， 与 解 二 次 规划 问题 (444) 求 出 (dt ,uto) 后 ， 令 
aD uo) 4 qu) (4.50) 

[Ee (4.51) 

是 等 价 的 . 以 上 讨论 还 可 以 进一步 推广 到 含有 不 等 式 约束 的 问 

题 .于 是 ,逐次 二 次 规划 法 的 各 次 选 代 里 , 令 BO = VIL (wt), utd) 
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EU 的 话 ， 可 以 期 待 生成 的 点 列 像 牛 顿 法 那样 有 
am. 
=<， 以 二 次 规划 子 问题 的 解 4*) 为 搜索 方向 ， 对 昼 函 数 
- ， - 行 一 维 搜索 的 情况 下 ， 为 保证 全 局 收 伍 性 有 必要 要 求 矩 
EE BO) 为 正定 的 (定理 411). RTA AERE V2L(z,4) 未 必 正 
定 (甚至 在 最 优 解 (x*,w*) 处 ) (参照 定理 4.9 和 定理 4.10 的 二 次 
最 优 条 件 ), HE BO := Vic(zU0,409) 是 不 合适 的 ， 于是、 
为 保证 短 法 的 全 局 收敛 性 ， BUO 要 一 直 保 持 正 定性 , 同时 为 得 
到 快 收敛 希望 尽量 选取 接近 VL, u) 者 . 
此 ,仿照 针对 无 约束 问题 的 拟 牛 顿 法 ， 可 以 考虑 通过 
逼近 矩阵 VL u) 来 逐步 构成 BUS. ei, 4 s := 
aD 2 pl) uU) := X7 e (aD, ue D) — vL Lz, uD), 利用 
3X (4.34) 的 BFGS 公式 
gO(y 3T BEO SESOK) 
GO —  (SUKPeyUO sun 


pit); gU. 


(4.52) 


更 新 BOO 的话， 可 以 期 待 BO 渐渐 接近 于 VLM, u). 但 
是 ， 根 据 式 (4.52) 来 更 新 矩阵 BO 时 ， 在 


(y 9 Ts > 0 


不 成 立时 无 法 保证 BO 的 正定 性 ， 这 个 不 等 式 虽 然 在 无 约束 
问题 的 情况 下 通常 成 立 (参照 4.4 节 ), 但 是 . 在 带 约 束 问题 里 经 
常 出 现 不 成 立 的 情况 . H, $ 
| qo KT > 0.2 (TBO g 
0 := 


0.8 (s(t))T BE) s(t) 
(s(&)T BUD) s(t) 一 (y (9)? s 


否则 


确定 
gO = ey? + (1 — 0) 
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利用 把 BFGS 公式 (4.52) 的 yP 换 成 到) 后 的 式 子 更 新 B®, 
就 可 以 恒 保 持 BO 的 正定 性 . 

逐次 二 次 规划 法 像 无 约束 最 优化 里 的 拟 牛 顿 法 一 样 具有 快 
速 收敛 性 的 前 提 条 件 是 ， 对 足 夭 大 的 严 有 tD 一 g V qo) 
(SÈ (4.50)). 这 意味 着 在 逐次 二 次 规划 法 的 算法 里 取 步 长 
tt := 工 Bb, Sis 


F(x + d) < Fp (2) (4.53) 


也 即 步 长 为 t= 1, 罚 通 数 FL 的 值 减 少时 ,经 常 优先 采用 步 长 
t 二 1 来 修正 一 维 搜索 - 

无 约束 最 优化 里 的 牛顿 法 和 拟 牛 顿 法 中 , 一 般 当 大 充分 大 
时 如 果 zt 接近 解 c" 的 话 ， 即 使 取 步 长 t= 1, 上 且 标 函数 也 减 
D. 但 是 在 用 到 不 可 微 罚 函数 F 的 逐次 二 次 规划 法 中 ， 有 可 
能 不 论 x00 如 何 接近 解 2', 式 (4.53) 都 不 成 立 ， 这 种 现象 称 为 
Maratos 效应 (Maratos effect), 它 是 拟 牛 顿 法 的 特长 也 成 为 损 
失 超 线性 收敛 性 的 原因 . 已 经 知道 , 通过 修补 可 以 消除 Maratos 
效应 . 让 二 次 规划 子 问题 的 解 到 二 阶 为 止 近似 满足 原 问 题 的 约 
RRT. 但 是 因为 说 明 起 来 有 些 复 杂 ， 在 此 不 作 更 深入 的 
介绍 . 


4.8 接近 点 法 


非 线性 最 优化 里 ， 一 直 是 古典 的 解析 学 起 着 重要 作用 ,但 
是 近年 来 , 基于 凸 分 析 (convex analysis) 的 各 种 概念 的 算法 的 研 
究 活 路 起 来 -. 在 数学 上 它们 是 非常 精练 的 方法 ， 同 时 通过 灵活 
利用 问题 的 结构 ， 与 针对 并 行 计 算 的 分 解 算 法 相关 联 ， 这 是 个 
很 有 意义 的 特征 . 这 里 介绍 这 类 方法 之 一 ， 接 近 点 法 (proximal 
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point algorithm). 
考虑 把 空间 R 的 各 点 x 对 应 到 R^ 的 革 个 子 集合 T(z) 的 
HA EE UT 进一步 ， 假 定 映射 满足 


y € T(z), y € T(z^) — (y-y) (æ — r') > 0. (4.54) 


满足 式 (4.54) 的 映射 称 为 单调 (monotone) 映射 另外， 考虑 单 
调 映射 工 的 图 形 Graph(T) = ((z, y) € R° x R” |y € T(z)) 时 , 如 
果 不 存 在 单调 映射 T', 使 Graph (T) C Graph(77) 及 Graph (T) Æ 
Graph (T') 成 立 ， 则 称 工 为 极 大 单调 (maximal monotone) fij. 
图 4.7 里 示意 了 空间 R^ 的 维 数 n 为 1 的 情况 下 的 单调 映射 的 
AF. mnm=1 的 时 候 ， 单调 映射 的 图 形成 为 右上 升 的 ， 可 以 看 
出 它 对 应 于 通常 的 单 变量 实数 值 函 数 人 情况 下 的 单调 增加 性 . 但 
是 ， 因 为 现在 考虑 的 是 点 - RH, WANE, 图 形 一 般 含 有 
垂直 线段 ， 这 表示 在 该 = 处 T(z) 的 成 分 不 是 一 个 点 . 另外、 
图 4.7 (b) 的 图 形 是 (a) 的 图 形 的 真子 集 ， 所 以 (b) 的 映射 是 单 
调 的 但 不 是 极 大 的 . 


y 


{a)i AEM {b) 非 板 文 章 调 喘 射 
图 4.7 单调 映射 的 图 例 (n= 1 的 情况 ) 


1) ETE c 可 以 有 Ttz) — 特别 是 把 Ttz) X0 H) x 的 集合 称 为 工 的 定义 
域 . 另外 ， 可 以 认为 通常 的 映射 (点 - 点 映射 ) 是 T(z) 恒 由 一 个 元 素 构成 的 特 
Lig 
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接近 点 法 是 求 出 极 大 单调 的 点 - 集 映 射 了 的 零点 ,也 即 满 
Æ 
0€ T(z) (4.55) 
的 点 z* < R 的 方法 . 如 果 映 射 工 是 点 - 点 映射 的 话 ， 式 (4.55) 
就 是 通常 的 非 线性 方程 ， 但 是 像 下 面 要 讲 的 那样 ， 式 (4.55) 的 
形式 所 表示 的 问题 包括 含有 最 优化 问题 在 内 的 非常 广泛 的 问 
题 类 . 由 此 , 接近 点 法 也 可 以 说 是 适用 范围 极其 广泛 的 方法 . 
首先 , 给 定 实数 值 凸 函数 了: R" > REJ, 令 T(z) = (Vf(x)). 
WEE T 满足 单调 性 条 件 (4.54). 另外 ， 这 时 式 (4.55) 可 写 为 
Vf(z) =0. 它 是 针对 凸 最 小 化 问题 


目标 函数 ，f(z) — 最 小 (4.56) 


的 最 优 性 的 充分 必要 条 件 . 于 是 。 这 种 情况 下 ， 找 出 满足 式 
(4.55) 的 xz 的 问题 和 最 小 化 问题 (4.56) 等 价 ， 而 且 因 为 了 是 点 
- 集 映射 , 所 以 即使 在 隐 数 /不 可 微 时 如 了, 对 于 次 微分 8f(z)， 
B T(z) = 3f (£), 则 式 (4.55) 仍然 表示 最 小 化 问题 (4.56) 的 最 
优 条 件 0 < afle). 

进一步 ， 即 使 对 于 有 闭 凸 可 行 域 8 的 一 般 西 最 优化 问题 


有 目标 函数 : f(x) — 最 小 (4.57) 
约束 条 件 : res(c n") 


DURAN: R^ 一 RON Fu Br, 则 在 任意 点 x 处 至 少 存在 一 个 向 量 y € R* 
满足 

fG)- He) 2 y'(x-2) (z€ R^). 
称 这 种 y 为 点 函数 f 在 点 z 的 次 梯度 (subgradient), 称 全 性 次 梯度 y 的 集合 
为 次 微分 (subdifferential), 记 为 6/{z). 特别 是 ， 如 果 在 点 Rb fa, 
Br = (Vf(z)). 另外 ,把 凸 函 数 的 次 微分 Of(z) ARE R^ 到 R" 的 点 - 集 
映射 的 活 ， 则 知道 它 为 极 太 单调 映射 . 
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定义 可 行 域 3 在 点 z 的 法 线 锥 (normal cone) 为 
Ns(z) = {y € R^|yT(z - 2) <0 (ze 8),] 
4 T(z) = Vf(z) + Ns), 则 式 (4.55) 可 写成 
-V f(z) € Ns() (4.58) 


如 图 48 所 示 ， 式 (4.58) 是 针对 带 约束 问题 (4.57) 的 最 优 条 件 
(参照 46 节 的 图 4.6). 


HB 4.8 针对 问题 (4.45) 的 最 优 条 件 (4.46) 
作为 带 约束 最 优化 问题 作 进一步 推广 ， 有 被 称 为 变 分 不 

等 式 问题 (variational inequality problem) 的 问题 . 变 分 不 等 式 问 
题 ， 是 给 定 闭 西 集合 SCR Mgt F: R^ o R* 时 10, 求 出 满 
足 

F(z)!'(z—-z)20 (z€8$) (4.59) 
的 点 ze3 的 问题 . 特别 是 ， S—R^EBL, XX (459) 就 是 非 线性 
方程 Flzj=0S={zeRnlzi>z0l=12 om) 的 时 候 归 为 
jS (complementarity problem), 也 即 求 出 满足 

r>0, F(z)20, rTF(r)=0 


0 所 也 可 以 是 点 一 集 映射 . 这 个 时 候 问题 成 为 求 出 对 某 个 % € F(z) 有 yT- 
z) >>0(z€S) 的 点 z€S. 
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的 点 z 的 问题 . 另外 ， F(x) 等 于 某 凸 函数 的 梯度 VIl) 时 ， 
EATER (4.59) 可 以 看 成 等 从 于 针对 函数 子 在 可 行 域 3S 上 
的 最 小 化 问题 (4.57) 的 最 优 条 件 (4.58). 这 样 ， 变 分 不 等 式 问 
题 (4.59) 可 以 说 是 非常 广泛 的 问题 类 ,但 是 该 问题 也 能 通过 令 
T(x) = F(z) + Ns(z), 归结 为 问题 (4.55) 的 形式 . 
现在 回 过 头 来 重新 考虑 求 极 大 单调 的 点 RAUM T dms 
a” 的 问题 (4.55) 针对 问题 (4.55) 的 接近 点 法 是 通过 反复 近代 
ZED o + cT) 1 (P9) (4.60) 


生成 收 合 于 解 x* 的 点 列 {x(*)} 的 非常 单纯 的 方法 ， 这 里 ， 式 
(4.60) 里 用 到 的 (cU?) 是 预先 适当 确定 的 正常 数 的 非 减少 序列 . 

另外 ， 工 为 极 大 单调 时 ， 对 任意 的 ye R" 和 <c>0 恒 存在 有 了 唯 
一 的 满足 


y € (I cry) 
的 ze R”. 也 即 ， 点 一 集 映 射 T+cT EI T + eT) 是 以 
全 空间 R 为 定义 域 的 点 -点 映射 . 于 是 接近 点 法 的 各 次 适 
代 里 ， 式 (4.60) 的 右边 为 唯一 确定 的 向 量 . 
为 更 详细 了 解 接近 点 法 ， 考 虑 在 选 代 (4.60) 里 正确 求 出 
(Lp eT) 1 (09 后 令 它 为 0D 的 情况 . 这 时 
gU *D = (T+ cU Tyr (e) 


意味 着 
zl € (I + eTO) = aD 十 etOT(zk+D) 
也 即 
z+) glk) 
EGI 
考虑 nm = 1 的 情况 ， 这 个 关系 表示 ， 通 过 点 (ry) = (zt,0) 
斜率 为 -1/cto 的 直线 y = (z 一 z)jeto TIUS T 的 图 形 


€ T(s**D) 
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{zyl € T(z)) 的 交点 的 x 坐标 是 0D. (进一步 知道 ， 映 
射 荆 为 极 大 单调 的 话 ,这 种 交点 恒 为 一 点 ， 也 即 ， 上 面 所 讲 的 
GU eT)! 成 为 点 -点 映射 ) 图 4.9 所 示 的 是 针对 m= 1 的 问 
Bn CU 取 定 值 时 由 接近 点 法 生成 的 点 列 (07) 的 情形 . 

在 把 接近 点 法 特别 运用 到 最 小 化 问题 (4.57) 的 情况 下 ， 选 
代 (4.60) 意味 着 近似 解 最 小 化 问题 


目标 函数 : f(z) tsi a HP — 最小。 (4.61) 
约束 条 件 :ze SC R") 


而 运用 到 变 分 不 等 式 问题 (4.59) 里 就 对 应 于 近似 解 变 分 不 等 式 
问题 


1 T 
(e dte - 2p) (z-2)20 (zes) (4.62) 


问题 (4.61) 和 (4.62) 是 与 原 问题 同一 类 型 的 问题 ,但 是 附加 的 
项 有 令 人 满意 的 性 质 ， 在 很 多 情况 下 易 求 解 0, 所 以 可 以 认为 
反复 近似 解 这 些 问题 实际 上 很 有 意义 . 


LEE 


- 
| ppo i umo D x" ox 


图 4.9 1 维 问题 的 接近 点 法 
(参数 cO 取 定 值 <>0 的 情形 ) 


1) 用 这 种 方法 来 改善 问题 的 性 质 称 为 正则 化 (regularization). 
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接近 点 法 的 迭代 (4.60) E., FA (E cT) (269) 之 近似 
sx aD 时 ， 如 果 让 它 满足 条 件 


Jet (T+ eT) G0) <er (k=0,L,...) (4.63) 
{这 里 (eu) EME DZ er < oo 的 正 数列 ), 或 者 


leerD — a e eT) 7 (9L s ela? 一 s] (ko 0.1...) 
` (4.64) 
(这 里 (5.) 是 满足 gna r < co 的 正 数列 )， 则 可 以 证 明 对 枉 意 
的 初始 点 ， 生 成 的 点 列 {zt9) 收敛 于 问题 (4.55) 的 解 2". 或 者 
一 般 地 , 过 代 (4.60) E, c 充分 小 时 ， 可 以 认为 待 求 的 z+ 
就 在 当前 点 z(0 的 附近 . 为 直观 理 解 这 个 事实 ， 只 要 考虑 一 下 
对 作为 问题 (4.55) 的 特殊 情况 的 最 小 化 问题 (4.57), 利用 接近 
点 法 即 可 ， 这 时 ， ztetn 可 以 通过 近似 解 最 小 化 问题 (4.61) 得 
a, BESA 很 小 时 ， 认 为 问题 (4.61) 的 解 存在 于 aU 附近 
是 很 自然 的 . (图 4.9 表明 , 当 cf 很 小 时 ， s 和 ze+D 很 接 
近 , 当 el 很 大 时 zt 和 tD 的 距离 变 大 . ) 于 是 ， 把 c0 作 
为 初始 点 用 适当 的 选 代 法 解 问题 (4.61), 可 以 期 待 能 比较 容易 
地 得 到 近似 解 zk+D, 然而 ， 也 可 以 认为 ， zt 和 sE 的 距 
离 很 小 时 ， 为 收敛 于 原 问 题 (4.55) 的 解 z” 需要 的 接近 点 法 的 
选 代 次 数 变 大 . 于 是 . 接近 点 法 的 初始 选 代 里 选取 小 的 c, 随 
着 送 代 进行 下 去 逐渐 加 大 ct. 通过 这 种 方法 加 速 收敛 到 解 =” 
实际 上 是 有 效 的 . 特别 地 ,可 以 证 明 ， 当 cf 一 co， 在 适当 的 条 
件 下 ， {20} 的 收 伍 速 度 为 超 线性 以 上 结果 可 综述 如 下 . 


定理 4.12 (接近 点 法 的 收 仇 性 ) 接近 点 法 (4.60) E, 假设 
(c9) ARDERI, HD 是 按 条 件 (4.63) 或 (4.6 和) Bi 
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二 


确定 的 ,这 时 ， 对 任意 的 初始 点 oO, 生成 的 点 列 (209) 收 敏 了 
问题 (4.55) 的 解 z*. 进一步 ， 如果 问题 (4.55) 有 唯一 解 x*, 而 
且 存 在 对 于 充分 小 的 任意 向 量 we R" 和 任意 的 zeT(w)m 
立 有 满足 lz — e] ajel] 的 常数 a 0, 则 利用 条 件 (4.64) 由 
接近 点 法 生成 的 点 列 (00) 超 线性 收效 于 z*. 


如 上 所 述 ， 接近 点 法 是 在 非常 一 般 的 框架 下 构成 的 方法 ， 
它 与 人 迄今 为 止 开发 出 的 众多 方法 紧密 相连 . 特别 是 ， 虽 然 在 
本 书 省 略 了 讲解 但 是 在 非 线性 规划 里 有 名 的 乘 数 法 (multiplier 
method, augmented Lagrangian method) 也 可 看 成 是 针对 给 定 问 
题 的 对 偶 问 题 所 利用 的 接近 点 法 . 


49 文献 及 其 它 话题 


有 关 非 线性 最 优化 方法 出 版 了 为 数 众多 的 出 色 的 讲解 书 ， 
这 里 仅 列举 Bertsekas [B82] Dennis, Schnabel [D583], Fletcher [f87], 
Gill, Murray, Wright [GMW81] 以 及 今 野 ,山下 [KY78] 的 教科 书 和 
Dennis, Schnabel [DS89], Gill, Murray, Saunders, Wright [GMSW89] 
的 综述 论文 . 另外 ， 关 于 非 线性 最 优化 里 最 优 条 件 和 对 偶 定 理 
等 的 基础 理论 ， 除 上 述 文献 外 还 有 福 岛 [F80], Rockafellar [R70] 
等 书 . 进一步 ，ASNOP [A91], 蒋 木 ， 福 岛 [IF91] 里 还 给 出 了 各 
种 各 样 的 非 线性 最 优化 算法 的 具体 程序 . 

针对 非 线 性 最 优化 问题 迄今 为 止 提出 了 各 式 各 样 的 方法 ， 
本 书 受 页 数 的 限制 不 得 不 限于 介绍 有 代表 性 者 ,特别 是 ， 关 于 
无 约束 最 优化 的 各 定理 ， 仅 有 氢 述 而 无 详细 讲解 。 这 些 定理 的 
证 明 ， 请 参照 今 野 ， 山 下 [KY78] 等 等 . 另外 ， 针 对 带 约 束 最 优 
化 仅 涉及 了 逐次 二 次 规划 法 ， 除 此 之 外 还 有 ， 把 带 约 束 间 题 变 
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换 为 无 约束 问题 (的 序列 ) 来 解 的 惩罚 法 (penalty method) 和 5fe 
数 法 (multiplier method), 把 线性 规划 的 单纯 形 法 推广 到 非 线性 
规划 后 的 推广 既 约 梯度 法 (generalized reduced gradient method, 
GRG ix) 等 等 强 有 力 的 方法 . 有 关 其 详细 内 容 请 参照 上 述 教科 
P. 关于 逐次 二 次 规划 法 的 理论 上 的 各 性 质 在 Bertsekas [B82] 
和 Fletcher [F87] 里 有 详细 讲解 . 另外 ， 消 除 逐 次 二 次 规划 法 里 
的 Maratos 效果 的 方法 在 茨 木 ， 福 岛 [IF91] 里 也 出 现 了 . 

4.8 节 介 绍 的 接近 点 法 是 由 Rockafellar [R76] 在 非常 一 般 的 
框架 下 做 的 详细 研究 ,以 接近 点 法 为 代表 的 基于 是 分 析 的 方 
法 , 在 数学 上 精练 , 同时 , 它 的 适用 范围 很 广 , 所 以 最 近 的 研究 
非常 活跃 ， 特别 是 ,作为 利用 了 问题 结构 的 并 行 算法 的 基础 方 
法 , 它 非常 有 效 . Bertsekas, Tsitsiklis [BT89] 讲解 了 包含 这 种 方 
法 在 内 的 各 种 并 行 最 优化 算法 . 进一步 ， 4.8 节 简 单 涉及 的 变 
分 不 等 式 问题 也 是 最 近 引 人 注目 的 领域 ， Harker, Pang [HP90] 
的 综述 论文 对 了 解 其 理论 和 应 用 概要 很 有 用 . 关于 凸 分 析 的 诸 
概念 除 上 述 [F80], [KY78], [R70] 外 , 在 布 川 , 中 山 , 谷 野 [FNT91] 
里 也 有 讲解 . 
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第 5 章 线性 规划 ， 椭 球 法 和 内 点 法 


本 章 介绍 针对 线性 规划 问题 的 多 项 式 时 间 算 法 一 LT 
和 内 点 法 . 首先 叙述 椭 球 法 ， 它 最 先 在 理论 上 明确 线性 规划 问 
题 恒 在 多 项 式 时 间 内 可 和解， 因而 意义 深远 . 其 次 讲解 现在 作为 
才 代 单纯 形 法 的 有 效 方法 而 引 人 注 目的 内 点 法 . 


5.1 xk 


像 1.4 节 所 述 的 那样 ， 经 验 上 单纯 形 法 在 O(m) 次 的 选 代 
后 结束 计算 ,但 是 在 最 坏 的 情况 下 计算 量 成 为 变量 数目 的 指数 
函数 ， 因 而 在 理论 上 不 是 多 项 式 时 间 算 法 . 对 此 ， 1979ER 
国 数学 家 工 G. Khachiyan (JI. T. XaamagHjin 基 于 和 单 
纯 形 法 完全 不 同 的 思想 提出 称 为 ERA (ellipsoid method) 的 新 
算法 ,并 证 明了 该 方 法 在 最 坏 计 算 量 的 意义 下 为 多 项 式 时 间 算 
dk. 然而 ,虽然 椭 球 法 在 理论 上 有 有 性 过 单纯 形 法 的 性 质 ,但 是 
已 经 证 实 了 它 在 实际 计算 效率 方面 明显 劣 于 单纯 形 法 ,所 以 还 
没有 达到 替代 单纯 形 法 的 实用 化 地 步 . EIC, MR IE DO PE SG 
全 停留 在 理论 范围 内 , 但 是 给 线性 规划 领域 带 来 的 影响 非常 重 
X. 所 以 ,本 节 想 讲解 有 关 椭 球 法 的 基本 想法 及 其 理论 性 质 . 

椭 球 法 ， 不 是 直接 处 理 线 性 规划 问题 ,而 是 先 判 定 下 面 的 


由 Xa uu#u 发 音 很 难 用 日 本 语 正确 标记 ,很 多 时 候 写 成 力 才 尽 > 或 者 人 
Ea 
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联 立 一 次 不 等 式 有 没有 解 ， 如 果 有 和解 ， 再 用 近代 法 实际 上 把 它 
EX 
efr b, (i—1,2,-.,m) (5.1) 


RE, 变量 x 是 n 维 实 向 量 , 为 简单 起 见 ， 假定 常数 向 量 a 的 
各 分 量 及 bi 为 整数 . 本 节 后 半 部 分 指明 求 联 立 一 次 不 等 式 的 
解 如 何 与 解 线性 规划 阿 题 相关 联 , 在 此 之 前 先 叙述 针对 不 等 式 
(5.1) 的 酉 球 法 的 基本 思想 . 

第 次 迭代 开始 时 ， 候 定 给 定 了 具有 如 下 性 质 的 枉 球 ” 
EU c R". 


X2í(szeR'|afezb(i- 1,2,.,m)) £9 
= XnEC? £0 (5.2) 


一 般 地 , 事先 并 不 知道 不 等 式 (5.1) 有 没有 解 ， 这 里 先 假定 不 等 
R (5.1) 的 解 集合 非 空 来 继续 我 们 的 话题 

那么 现在 把 注意 力 集中 到 精 球 BE 的 球 心 2 中 .如果 ?9 
满足 不 等 式 (5.1), 则 已 经 得 出 待 求 的 解 ， 从 而 和 迭代 到 此 结束 
否则 任意 选取 一 个 满足 

afz > b; (5.3) 

FEM 图 5.1 针对 变量 z 的 维 数 为 2 的 时 候 示意 了 这 么 一 种 状 
况 ， 直 线 ofa = bi 的 左下 部 分 对 应 于 afa > bi 的 领域 ， 右 上 
部 分 对 应 于 afz < bi 领域 .于 是 ， 根 据 性 质 (5.2) 和 式 (5.3), 式 
(5.1) 的 解 应 该 存在 于 直线 fe = bi 的 右上 领域 和 柄 球 Eo 的 
共同 部 分 (图 的 斜 线 部 分 ) 里 . 因此， 考虑 把 直线 ofx = b 作 
平行 移动 使 其 通过 本 球 B59 的 球 心 zx 加, 成 为 az 一 afat), 
In ERM R E E= {re R |œ- êT B8) S1] 表示 的 集合 称 为 视 
球 . 3E, à RHERENIRO. BÆ nxn DGEXOHOSM. HIE B =o (a 
为 正 数 ， DAPRE) KYR, ARRAROA å 半径 为 VE 的 球 - 
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则 式 (5.1) 的 解 存在 于 该 直线 二 分 椭 球 EO JS f8 EU B5 s qu 
BU :一 EO n {x € Rr|afz < afa) > rh, 于 是 ， 如 果 进 一 步 
考虑 包含 EO HERR, 则 可 以 保证 它 一 定 包 含 式 (5.1) 的 
AH. 另外， 如 果 根 据 


1 BO) 
Ga... 1 —— 5. 
Ei c "n GP BUS; (5.4) 
2 
KHD. pO) P 
B ` n?—1 
[p2 (BWa) BUS, T 5.5 
nYI aT Ba; e 


图 $5.1 椭 球 法 的 送 代 


确定 z8+D 和 BC+D TR 包含 半 椭 球 EC 89 38 h 
E(t+1) E ER” | (z 一 grD)TBirD(, 一 gU) < 1} 


Hu WB, RHR 已 的 体积 用 vol(E) 表示 的 话 ， 则 成 立 关 
系 


ali 


volH EC+D) n n? VY ola 
Ve(EUS 一 FT 2) sem (5.6) 


TE, 车 重复 上 面 的 手续 ，, 在 保持 性 质 (5.2) 的 同时 ， 逐 渐 生成 
体积 按 低 于 垣 定 比例 271/200) (50 之 速度 减少 的 狂 球 序列 ， 
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从 而 使 得 包含 不 等 式 (5.2) 的 解 的 范围 逐步 得 到 限定 了 
以 上 是 短 球 法 的 概略 ， 其 计算 顺序 可 以 总 结 如 下 . 


算法 ELLIPSOID ( 椭 球 法 ) 


第 一 步 (初始 化 ): 选取 具有 性 质 (5.2) 的 足够 大 的 椭 球 EQ, 5 
定 最 大 选 代 次 数 K. ki 0. 


第 二 步 ( 解 的 判定 ): in Rd ck EUD 的 球 心 zt) 满足 不 等 式 (5.1) 
则 结束 计算 . 


第 三 步 ( 椭 球 的 更 新 ): 选取 一 个 满足 afzt9 > b 的 i RER 
(5.4), (5.5), 求 出 新 的 椭 球 ECTU, $ ko kl HRK 
则 结束 计算 ， 否则 回 到 第 二 步 . 


执行 该 算法 时 ,在 初始 化 阶段 ， 有 必要 确定 具有 性 质 (5.2) 
DISSE 和 最 大 和 迭代 次 数 K 因此 ， 作 为 表示 不 等 式 (5.1) 
的 数据 大 小 的 指标 ， EL? 


L= Y [log(ewslt+1}+1l + $ legs] + 1)+1] (5.7) 


它 是 不 等 式 (5.1) 的 输入 数据 长 度 ， 表 示 为 记忆 作为 二 进 制 数 
的 所 有 系数 ab 必要 存储 领域 之 大 小 (位 数 ) 这 时 ， 把 以 原 
点 为 球 心 ，25 为 半径 的 球 记 为 5, 则 不 等 式 (5.1) 有 解 时 ， 可 以 
1) 各 选 代 里 ， 不 考虑 包含 半 精 球 EH KWR, 而 考虑 包含 集合 {z € EF) | 
afa < bi) {图 5.1 的 射线 部 分 ) 的 最 小 椭 球 , 同样 的 讨论 在 EGTDO pini. 
$t. 这 种 方式 的 体积 vol( EU) DLE ER BO ERE FE, LET Te nri] 


球 的 更 新 公式 比 起 式 (54), (5.5) IE E E (ER e 
2) 式 (5.7) 里 ， 对 数 的 底 是 2, [a] 表示 不 小 于 o 的 最 小 整数 . 
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断言 这 解 集合 X 和 球 的 共同 部 分 非 空 。 (这 个 性 质 可 以 由 
不 等 式 系数 的 整数 性 导出 ，) BE, BRS RATER (5.2), 所 以 
可 以 作为 初始 椭 球 EO := S. 

其 次 考虑 ， 最 大 迭代 次 数 天 要 设 定 为 多 大 才 行 . 首先 ， 候 
定 不 等 式 (5.0 的 解 集合 和 初始 椭 球 的 共同 部 分 NEO 具有 
正 的 体积 ， 其 值 已 知 ， 这 时 ， 如 果 考 虑 到 根据 糖 球 法 的 性 质 伍 
成 立 有 

XnEg9 c gi 


则 式 (5.1) 的 解 应 该 在 椭 球 ECO 的 体积 变 得 比 集合 Xo EO 的 
体积 更 小 之 前 一 定 找 出 ， 由 于 式 (5.6)， FERR EUO 的 体积 至 少 以 
恒定 比例 271098 (< 1) 减少 下 去 ， 根据 (已 知 的 ) 30 6 M ER A 
RENEO 的 体积 ， 可 以 估计 出 酉 球 EC? 的 体积 变 得 比 集合 
X n EU) 的 体积 更 小 所 需要 的 迁 代 次 数 . 因此 把 它 作为 最 大 迁 
代 次 数 K 即 可 . 

但 是 一 般 说 来 ,不 等 式 (5.1) 并 不 一 定 有 解 ， 即使 有 解 ， 解 
RTA 的 体积 也 可 能 为 零 . ( 请 想像 一 下 元 为 3 维 空间 内 
的 无 “厚度 " 的 平面 集合 ,或 者 线段 以 及 只 有 一 点 的 集合 的 情 
x. ELILISDGE LE NS IEXTEPE S T1 1 
论 ， 但 是 通过 利用 下 述 技 巧 ， 问 题 可 以 得 到 解决 . 

针对 不 等 式 (5.1), 定义 下 面 的 不 等 式 . 


2'aTe < 2lb tl (i—1,2,.,m) (5.8) 


考虑 这 个 不 等 式 两 边 除 以 27 后 的 等 价 不 等 式 ， 它 是 不 等 式 (5.1) 
的 右边 放大 2- 了 后 的 结果 . 但 是 ， 因 为 2- 的 值 充分 小 ， 故 仅 
在 不 等 式 (5.1) 有 解 时 不 等 式 (5.8) 才 有 解 . 这 是 个 很 重要 的 关 
Ro ( 它 是 基于 不 等 式 的 系数 全 部 为 整数 的 假定 得 到 的 . ) 如 
困 得 到 了 不 等 式 (5.8) 的 解 ， 则 可 以 利用 它 计 算 赎 不 等 式 (5.1) 
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的 一 个 解 . 根据 这 些 事实 ， 不 等 式 (5.1) 和 不 等 式 (5.8) 可 以 看 
成 “等 价 ", 所 以 下 面 考虑 对 不 等 式 (5.8), 而 不 是 对 不 等 式 (5.1)， 
利用 椭 球 法 . 

如 果 不 等 式 (5.1) 有 和解 c, 则 可 以 证 明 对 于 ||x 一 || < 2-24 
的 任意 z 都 成 为 不 等 式 (5.8) 的 解 ， 所 以 知道 不 等 式 (5.8) 的 解 
集合 包含 有 以 点 下 为 球 心 以 2- 为 半径 的 球 . 也 即 ， 不 等 式 
(5.1) 有 和 解 时 ， 可 保证 不 等 式 (5.8) 的 解 集合 至 少 有 半径 为 2-2Z 
的 球 的 和 体积 .另外 ，? 维 空间 R" 里 ， 把 单位 球 (半径 为 1 的 球 ) 
BERRA d 则 半径 为 > 的 球 的 体积 成 为 ro. 这 样 一 来 ， 如 
REMER EC! 是 半径 为 27 BR S, 则 因为 椭 球 ECO 的 体积 
fed UGETUBDIL 2 12090 的 比例 减少 下 去 ， 所 以 使 它 第 一 次 
变 得 比 半径 为 2 的 球 的 体积 小 所 需要 的 送 代 次 数 上 限 由 满 
是 下 式 的 最 小 上 给 出 . 


(mm) t ^$«(2-?5^à (5.9) 


满足 不 等 式 (5.9) 的 最 小 大 是 6n(n - 1)L, RI DAdEUE 4E 2 LG 
代 次 数 K 概 揪 以 上 讨论 。 得 到 下 面 的 定理 . 


定理 5.1 ( 椭 球 法 的 多 项 式 性 ) 针对 不 等 式 (5.8) RIF MR RR 
法 时 ， 如 果 原 来 的 不 等 式 (5.1) 有 和 解 。 则 一 定 在 KK := 6n(n - 1)L 
以 下 次 数 的 迭代 内 ， 椭 球 的 球 心 满 足 式 (5.8) 从 而 结束 计算 . 反 
Z, MERRI K 次 迭代 后 仍然 结束 不 了 计算 ， 则 不 等 式 (5.1) 
无 解 . 最 大 迭代 次 数 K 是 问题 规模 的 多 项 式 阶 O(n L), ERE 
代 的 计算 量 也 显然 可 以 控制 在 问题 规模 的 多 项 式 内 , 所 以 椭 球 
法 是 多 项 式 时 间 算 法 . 


烽 球 法 的 计算 量 依赖 于 问题 的 数据 长 度 L, 故 不 是 多 项 式 
算法 . 
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到 现在 为 止 是 把 码 球 法 当做 不 等 式 (5.1) 的 解法 进行 考虑 
的 ,但 是 稍微 下 点 工夫 后 ， 也 可 以 用 它 来 解 线性 规划 问题 ， 这 
样 的 方法 已 经 知道 有 好 几 个 ， 其 中 有 一 个 是 利用 1. ?7 节 所 说 
的 线性 规划 问题 的 原 问 题 和 对 偶 问 题 ， 把 问题 变换 成 为 不 等 式 
(5.1) 的 形式 ， 现 在 ， 假 设 给 定 了 要 解 的 线性 规划 问题 为 


BRA: Tr — 最 小 


(5.10) 
约束 条 件 ， Ar>b, z>0 
该 问题 的 对 偶 问 题 是 
x . BT. 
目标 函数 : buw — 最 大 (5.11) 


HRR: ATexewr0. 


根据 1.7 节 的 定理 1. 4{ 弱 对 偶 定 理 ) (0), 对 于 问题 (5.10) 和 问题 
(5-11) 的 任意 可 行 解 x, w, 着 眼 于 恒 成 立 的 不 等 式 crz > bw, 
考虑 包含 其 反 向 不 等 式 的 如 下 联 立 不 等 式 组 . 


Amb, z>0 
ATwXce w20 (5.12) 
Tr < Tao 


如 果 该 不 等 式 存在 解 z, w, 则 根据 上 面 所 述 的 事实 ， 必 然 成 立 
cz = bw, 由 定理 1. 4 Bü (iv), x, w 分别 是 问题 (5.10) 和 问 
题 (5.11) 的 最 优 解 . 这样 一 来 ， 如 果 可 能 用 椭 球 法 求 出 不 等 式 
(5.12) 的 解 ， 则 可 以 (和 对 偶 问 题 (5.11) 最 优 解 同时 ) 得 到 问题 
(5.10) 的 最 优 解 . 另外 , 虽然 不 等 式 (5.12) 的 规模 比 起 问题 (5.10) 
ERK, 但 是 最 多 不 会 超过 常数 倍 . 于 是 ,在 对 不 等 式 (5.12) 利 
椭 球 法 的 情况 下 , 计算 量 上 的 评价 成 为 关于 原 线 性 规划 问题 
(5.10) 的 规模 的 多 项 式 . 
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5.2 Karmarkar 法 


N. Karmarkar 在 1984 年 , 提出 了 针对 线性 规划 问题 的 新 的 
多 项 式 时 间 算法 , 并 宣告 它 在 实际 计算 效率 方面 也 比 单纯 形 法 
好 .其 后 ， 受 Karmarkar 方法 启发 ， 所 谓 内 点 法 (interior point 
method 或 者 interior method) 范畴 里 的 各 式 各 样 的 方法 被 提出 
KT. 单纯 形 法 是 一 边 寻 找 可 行 域 ( 凸 多 面体 ) 的 项 点 一 边 生 成 
到 达 最 优 解 的 点 列 (可 行 基 解 的 序列 ). 相 比 之 下 , 内 点 法 像 其 名 
字 一 样 ,是 经 过 可 行 域内 部 生成 收 伍 于 最 优 解 的 点 列 的 方法 . 
另外 ,内 点 法 算法 中 有 很 多 被 指出 与 非 线性 最 优化 里 有 名 的 投 
影 梯度 法 ,牛顿 法 以 及 罚 函 数 法 等 有 着 密切 的 关系 . 这 节 氢 述 
Karmarkar 法 (Karmarkar's method) 的 思想 ,下 节 以 后 ， 说 明 
有 代表 性 的 内 点 法 算法 一 仿 射 变 换 法 及 其 多 项 式 时 间 版 本 . 

Karmarkar 法 处 理 如 下 形式 的 线性 规划 问题 . 


BRA: Jr — KH 
约 东 条 件 ， 4z =0 (5.13) 


eTr=1, r0 


这 里 ,变量 Eon HE, AE moon AREN, cn HER 
数 向 量 ，。 是 所 有 分 量 为 1 的 nn 维 向 量 e=(1,1,…1)"，A4 和 ce 
的 分 量 全 部 为 整数 . 

问题 (5.13) 的 可 行 域 可 以 表示 为 如 下 两 个 集合 的 共同 部 
分 . 


Q = {z € R” | Az = 0} (5.14) 
S= {z € R” jeTz =1, x 2 0} (5.15) 
1) 本 书 所 说 的 Karmarkar 法 指 的 是 1984 年 Karmarkar 最 初 提出 的 方法 ， 
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这 里 , 集合 是 空间 R" 的 子 空间 ，3 是 称 为 单纯 形 (simplex) 

的 (n — 1) 维特 殊 形状 的 集合 D. 特别 地 ， 满 足 = > 0 的 可 行 解 

TEQNS 称 为 问题 (5.13) 的 可 行内 点 (feasible interior point). 
进一步 ， 对 问题 (5.13) 做 如 下 假定 . 


L Ae = 0 成 立 .也 即 ,单纯 形 $ 的 重心 efn = (1/n, 1n.. 1/n)T 
是 问题 (5.13) 的 可 行 解 . 


2. 问题 (5.13) 的 最 小 值 为 0. 


以 第 1 章 处 理 标 准 形 问 题 的 习惯 眼光 来 看 ， 问 题 (5.13) 的 形状 
非常 特别 ,针对 它 的 假定 也 留 有 不 自然 的 印象 ， 但 是 即使 技 这 
种 形式 设 定 问题 ， 也 不 会 失去 理论 上 的 -一般 性 3， 

像 上 面 所 讲 的 那样 ， Karmarkar 法 是 生成 收 敏 于 问题 (5.13) 
的 最 优 解 的 可 行内 点 序列 {2(9} DE A 以 下 说 明 从 给 定 的 可 
行内 点 sU) 确定 下 一 步 的 可 行内 点 00 的 方法 . 首先， 对 点 
200, 定义 把 单纯 形 5 的 点 xz = (21,22, 2n)" 酉 射 到 单纯 形 S 
BG Ex y = (Y1, Y2, ss ga)" 的 映射 


k 
TEN ) 


T Siale) 


RE, EUO 的 各 要 素 为 对 角 分 量 的 对 角 和 矩阵 记 为 


V; G—12,..,n) (5.16) 


Da—28R E S AFERA (,0,(0,1 的 线段 ，n = 3 的 时 候 是 以 
三 点 (1,0,0),(0,1,0), (0,0, 1) 为 顶点 的 正三 角形 ，n = 4 的 时 候 是 以 四 点 
(1,0,0, 0), (0, 2, 0,0), (0,0, 1,0), (0,0, 0, 1) 为 顶点 的 正四 面体 . 也 即 ， 3 的 维 数 
比 所 考 忠 的 空间 的 维 数 仅仅 小 1. 

2) 有 关 把 一 般 问 题 变 换 成 满足 奶 定 2 的 问题 形式 (5.13) 的 方法 请 参照 
Karmarkar 的 论文 或 者 章 末 给 出 的 参考 文献 . 但 是 ， 这 些 方 法 是 非常 人 为 的 、 
另外 进行 这 种 变换 来 解 问题 实际 上 并 不 一 定 有 益 . 
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(5.17) 


则 式 (5.16) 可 以 用 如 下 向 量 表示 . 


(D(H) -1z 


y= A (5.18) 


以 下 把 这 个 映射 表示 为 y= To(z). 容易 理解 ， 因 为 映射 TO 
的 送 上 映射 (T) 由 


Dey 


{TOO) -1 = Dy (5.19) 


fu. TO 成 为 单纯 形 5 到 单纯 形 9 上 的 1-1 映射 . 特别 是 ， 
通过 映射 TO, 单纯 形 5 的 各 顶点 映射 至 同样 的 顶点 ， 各 边 映 
射 至 同样 的 边 . 另外 ,单纯 形 S 内 的 任意 线段 仍然 映射 为 单纯 
JE S 内 的 线段 ,把 具有 这 种 性 质 的 映射 (变换 ) 一 般 称 为 投影 
变换 (projective transformation). 上 面 定义 的 映射 T 是 把 现在 
H0 5x 207 映射 至 单纯 形 S 的 重心 efn = (1/n,.…1/n)7 的 投影 变 
换 ， 成 为 Karmarkar 法 的 重要 工具 之 一 (参照 图 5.2). 


(0.0. 1) (0.0, D 


NN, (13, 1/3, 4/3) 
C 
(1,9,0) {0, 1.0) (1,0,0) Q0, 1.0) 


图 5-2 投影 变换 TO 之 例 (n= 3) 
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如 果 利 用 投影 变换 TO, 则 根据 式 (5.19), 问题 (5.13) 的 目 


标 函 数 成 为 
e? py 


efy— DO (5.20) 
约束 条 件 Az — 0 成 为 
ADU 
z= p? (5.21) 


进一步 ,注意 到 TU) 把 单纯 形 3 映射 为 自身 ,对 5S 所 包含 的 
TEES y 成 立 eT DUO y > 0, 则 可 以 知道 问题 (5.13) SE ETT in 
的 问题 . 


_ (RAT, 
Hie 和 一 ”最 小 
约束 条 件 : AU =0 (5.22) 


eTy=1, y 20 


RE, eH, A 分 别 是 


c = DO (5.23) 
AU) = A pO (5.24) 
HELW RETE. mxaiBRERS Bih, WEE, "dA TUO 


把 点 200 映射 至 单纯 形 5S 的 重心 ef/n, 根据 矩阵 DUO. 的 定义 以 
及 zt 是 问题 (5.13) 的 可 行 解 ， 成 立 有 


Ae = ADU) = 4zto =0 


这 样 一 来 ， 点 e/n 是 问题 (5.22) 的 可 行 解 . 
Rit, 问题 (5.22) 里 ， 考 虑 从 点 ef/n 出 发 , 在 满足 约束 条 件 
的 同时 ， 沿 目标 函数 减少 的 方向 移动 . 这 里 ， 定 义 (mm 十 1) x 严 
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和 矩阵 BU) 为 
e 
B® = | T | (5.25) 


e 


4 b= (0,....0,1)7 € R™+1, Wy pa RA (5.22) 的 等 式 约束 条 件 可 以 
一 起 表示 为 
By =b (5.26) 


以 下 为 简化 讨论 ， 假 定 


rank B!) — m 4 1 (5.27) 


这 时 ， (mcd) (mor 1) B Re BOBOT 是 非 奇异 的 ， 利 用 它 
TAE nxn HERE 


-1 
Pf? = 1- (BET (BEBOT) B® (5-28) 

EER S TES 
BOPP =0, PPPD = PP (5.29) 


而 且 ， 对 于 任意 向 量 end P44 成 为 把 4d 正 投影 到 子 空 
间 {y € R" | B?y — 0) 后 的 向 量 (SRA 5.3). 


B. 0 


图 5.3 至 于 空间 {yl BÓy—o) 上 的 投影 


1) 一 般 称 具有 这 种 性 质 的 矩阵 为 投影 矩阵 (projection matrix). 


现在 问题 (5.22) 的 目标 函数 为 分 数 形 ， 所 以 先 注意 分 子 函 
数 (ct)Ty 的 最 速 下 降 方向 -ct 考虑 把 它 正 投影 到 子 空间 
(ye R| By —0] 后 的 向 量 


一 ct = ppm (5.30) 


根据 式 (5.29), (5.30), 成 立 BUe = 0, 所 以 即使 把 点 e/n 沿 
向 量 -et 的 方向 移动 也 不 会 违反 问题 (5.22) 的 等 式 约束 条 件 
(5.26). 因此 Karmarkar 法 里 , 把 向 量 -et 正规 化 为 长 度 是 1 的 
向 量 


eU 
=- RON] 
以 此 作为 搜索 方向 ， 求 出 从 点 e/n 出 发 ， 沿 d 的 方向 前 进步 
长 a > 0 所 得 到 的 点 


un (5.31) 


y^ E + od (5.32) 


进一步 ， 对 点 3y 实施 投影 变换 TE 的 道 变换 (5.19), 决定 下 面 
的 点 
tD := (pont E * ad) (5.33) 


容易 验证 这 个 点 满足 问题 (5.13) 的 约束 条 件 Ar = 0 eTe = 1.5 
Bb, 0D 是 问题 (5.13) 的 可 行内 点 , 所 以 只 要 选取 使 式 (5.32) 
中 sy 的 各 分 量 全 部 为 正 的 步 长 a 即 可 . 

点 zt 经 投影 变换 TO GERREA y 的 空间 的 单纯 
形 重心 ， 这 个 事实 在 选择 步 长 时 候 起 重要 作用 . 问题 的 最 优 解 
一 般 存 在 于 单纯 形 的 边界 上 ， 所 以 收 黎 于 解 的 点 列 几 然 接 近 
边界 . 但 是 ， 在 变量 x 的 空间 里 当 点 zt 在 单纯 形 的 边界 附 
近 时 ， 从 这 个 点 出 发 党 目标 函数 的 最 速 下 降 方 向 移动 会 马上 
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冲 出 边界 ， 所 以 不 能 取 太 大 的 步 长 . 但是， Karmarkar 法 里 ， 
每 次 迭代 中 把 点 zt 拉 回 到 在 变量 y 的 空间 里 的 单纯 形 重心 
ejn = TO (a 9), 所 以 可 以 确保 到 单纯 形 的 边界 之 间 有 足够 的 
距离 . 这 样 -- 来 ， 变量 y 的 空间 里 ， 用 式 (5.32) 决定 下 一 步 点 

的 时 候 ， 可 以 选取 在 某 种 程度 上 较 大 的 步 长 . 
因为 向 量 d*) 对 应 于 针对 问题 (5.22) 的 目标 济 数 之 分 子 的 
最 速 下 降 方向 ,所 以 可 能 期 待 它 也 成 为 县 标 函 数 本 身 的 下 降 方 
向 .可 实际 上 未 必 如 此 . 此 Karmarkar 法 里 ， 不 考虑 目标 函 
数 而 是 考虑 下 面 的 称 为 势 函 数 (potential function) 的 函数 . 通 

过 生成 使 该 函数 单调 减少 的 点 列 ， 得 出 到 最 优 解 的 收 伍 0. 

f(z)-1n GE) = nincs -$` ma; (5.34) 

j=1 


Eitt En 


n| 


根据 关于 问题 (5.13) 的 假定 2, 对 所 有 的 可 行 解 z 有 crz 0, 所 
以 对 于 可 行内 点 + > 0 一 般 成 立 erz > 0, 势 函数 了 在 可 行内 点 
的 集合 上 的 定义 不 会 产生 矛盾 3, 进一步 ， 车 可 行内 点 的 序列 
(a0?) 满足 

f) — -œ (5.35) 


根据 函数 也 的 定义 (5.34), 成 立 Tr 一 0, 所 以 可 以 认为 点 列 
[2 00) 收 伍 于 问题 (5.13) 的 最 优 解 . 

因为 讨论 非常 复杂 ， 所 以 仅仅 列 出 结果 从 点 x) 出 发 移 
动 到 式 (5.33) 的 点 sU D 时 ， 如 果 选 取 步 长 e = 1/(30) 则 可 以 
断言 i 


FED) — fe) < -5 (5-36) 


1) 这 里 。 In 表示 自然 对 数 . 
2) 对 所 有 的 可 行 解 = 恒 成 立 crz = 0 的 情况 下 无 法 定义 函数 f, 但 是 因为 这 
种 问题 本 来 就 无 意义 ， 所 以 不 把 它 列 为 讨论 对 象 . 
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成 立 . 这 样 一 来 固定 步 长 为 一 定 值 c = 1/{3n), 反复 进行 上 
的 选 代 ， 则 对 第 类 次 迭代 中 势 函数 的 值 成 立 


i 


Fah) < fe) E (5.37) 


所 以 式 (5.35) 成 立 ， 也 就 知道 点 列 (009) eT 3 RR (5.13) 的 
Be. 

根据 上 面 的 讨论 知道 ， 无 限 次 进行 Karmarkar $ fff x 46 BE 
生成 的 点 列 收 敏 于 解 . 但 是 实际 上 ， 如 下 所 述 ， 可 以 断言 有 限 
次 的 迭代 就 足够 了 . 作为 表示 问题 (5.13) 的 数据 大 小 的 指标 ， 
和 前 节 的 糖 球 法 情况 下 的 式 (5.7) 同样 定义 


n3 


L 2 S hogdasl € 1) + 1} + > nosgeld +1) +1] (5.38) 
ij H 

ME, Ur := e/n 为 初始 点 执行 Karmarkar 法 时 ， 设 目标 函 

数值 在 第 ko XE FC BMC SIS E 


Ta < 2-2L0T 0) (5.39) 


此 时 ， 把 点 zt 的 分 量 中 与 0 充分 接近 者 当 作 0% 则 可 以 计算 
JE EB (5.13) 的 可 行 基 解 ， 它 成 为 问题 (5.13) 的 严密 最 优 解 . 于 
是 ， Karmarkar 法 中 即使 目标 函数 值 crz 不 严格 为 0, 也 可 以 在 
满足 式 (5.39) 的 时 肇 结束 选 代 - 


算法 KARMARKAR (Karmarkar 法 ) 


第 一 步 (初始 化 ): 取 初 始 可 行内 点 z := en. kic 0. 


1) 在 各 选 代 里 ， 也 可 以 用 适当 的 一 维 搜索 方法 求 出 使 势 函 数 减 少 最 大 的 步 长 
值 来 决定 下 一 步 的 选 代 点 zts+0. 当然 ， 即 使 在 这 种 情况 下 ， 也 可 以 保证 每 次 
迁 代 里 的 势 函 数 减 少 一 定 值 (1/5) 以 上 ， 式 (5.37) RE. 
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第 二 步 ( 解 的 判定 ): 如 果 点 2007 满足 不 等 式 (5.39) 则 结束 计 
算 . 


第 三 步 (下 一 步 选 代 点 的 计算 ): 根据 式 (5.33) 计算 tt. 
k:=k+1 回 到 第 二 步 . 


最 后 估计 该 算法 的 最 大 迭代 次 数 ， 首先 ， 根 据 式 (5.37) 和 
势 函数 的 定义 (5.34), 对 任意 的 上 成 立 


nlnceTa(9 — à z(? < nIncla (9 — Xe - E (5.40) 
然而 , 单纯 形 5= {rE R"ieTz =1,z>0} 上 西数 Da lne; 在 
z 二 efn 时 达到 最 大 ， 因 为 初始 点 实际 上 选 了 ax = efn, 所 以 
EHE 

Sin < ine? 
j=1 j=1 
因此 ， 由 式 (5.40) 有 


nlneTz(9 < nIncTa(9) — E 


也 即 成 立 
cT a 9 < exp(—k/5n) ca (5.41) 


这 里 ， 把 式 (5.89) 和 (5.41) 作 一 比较 .车 在 式 (5.41) Bẹ kz 
10(In 2)n.L, 则 式 (5.39) 可 以 得 到 满足 .所 以 知道 ,最 多 在 10(in 2)nL 
次 的 迭代 后 , 算法 的 停止 条 件 一 定 会 得 到 满足 . 也 即 ，Karmarkar 
法 的 迭代 次 数 成 为 O(n 了 ). 

下 面 考虑 算法 整体 的 计算 量 . Karmarkar 法 的 各 次 迭代 里 
需要 计算 量 最 多 的 是 向 量 CÓ? 的 正 投影 计算 (5.30), 它 可 归结 为 
f EL BÜUP (BUT 为 系数 矩阵 的 联 立 一 次 方程 组 . 老 老 实 实 进 行 
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这 个 计算 的 话 , AREE BOBOT 的 分 量 要 O(nm?), T. 
立 一 次 方程 组 要 Om) 的 计算 量 ， HRPB n>m, 一 次 迭代 
时 的 计算 量 成 为 Onm). 实际 上 ， (BIT = A(ptoya 4m. 
中 每 次 选 代 发 生变 化 的 仅仅 是 对 角 和 矩阵 DOS B5 43. 利用 
这 个 事实 有 可 能 稍微 减少 一 点 每 次 选 代 的 计算 量 、 

以 上 关于 Karmarkar 法 计算 量 的 讨论 可 以 役 揪 为 如 下 定 
m. 


定理 5.2 (Karmarkar 法 的 多 项 式 性 ) 针对 问题 《5.13) 的 
Karmarkar 法 在 O(nE) 次 选 代 后 一 定 停止 ， 另 外 ， 每 次 迭代 的 
计算 量 可 以 控制 在 问题 规模 的 多 项 式 阶 里 ， 所 以 Karmarkar 法 
是 多 项 式 时间 算 法 . 


上 而 关于 Karmarkar 法 的 计算 量 的 估计 从 实用 观点 来 看 决 
不 能 说 是 小 的 ， 如 果实 际 上 真 需 要 那么 些 计 算 量 则 不 可 能 战胜 
单纯 形 法 . Karmarkar 法 为 代表 的 内 点 法 之 所 以 引信 注目 ， 
是 因为 实际 上 进行 计算 的 时 候 ， 先 代 次 数 不 太 依赖 于 问题 的 规 
模 . 对 一 般 的 问题 在 数 十 次 的 选 代 里 就 可 得 到 十 分 满意 的 近似 
解 . 这 是 个 令 人 吃惊 的 经 验 事实 . 


5.3 仿 射 变换 法 


为 了 使 用 问题 (5.13) 的 投影 变换 ， Karmarkar 法 的 描述 显 
得 有 些 复 杂 ， 问题 的 设 定 也 留 有 不 自然 的 印象 . 为 克服 这 个 缺 
A HEIRE (affine scaling method) 不 用 投影 变换 而 用 仿 
射 变换 (线性 变换 ) . ERATE Karmarkar 法 那样 的 特别 假 
定 就 能 执行 的 优点 . 伪 射 变换 法 是 六 十 年 代 由 工 工 Dikin (H. 
H. Dukun) RHF, 当时 不 怎么 引 人 注 目 ， 但 是 在 
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Karmarkar 法 发 表 以 后 再 次 发 气 ， 这 一 研究 便 活跃 起 来 了 ， 该 
方法 尚未 绚 Karmarkar 法 那样 被 证 明 为 多 项 式 时 间 算 法 ， 但 是 
根据 数值 实验 ， 人 们 发 现 它 的 计算 效率 根 当 好 . 

考虑 下 面 的 标准 形 线性 规划 问题 . 


目标 函数 : Tr 一 最 小 


(5.42) 
约束 条 件 : Az =b e20 


这 里 ,变量 Zz 是 n 维 向 量 ，4 是 mxn 常数 矩阵 ， 和 = 分别 
是 m 维 及 n 维 常数 向 量 . 进一步 ,假定 和 矩阵 A 的 秩 为 m. 另 
外 ,虽然 没有 像 Karmarkar 法 那样 假定 已 经 知道 目标 函数 的 最 
少 值 ， 但 是 作为 初始 点 O”, 假设 至 少 知道 一 个 满足 


Ay —b, 了 >0 (5.43) 


的 点 . 和 前 节 同 样 , 这 种 点 称 为 可 行内 点 (feasible interior point). 
仿 射 变换 法 也 和 Karmarkar 法 同样 ， 是 从 可 行内 点 O 开 
始 ， 生 成 收敛 于 问题 最 优 解 的 可 行内 点 的 序列 (209) 的 方法 . 
现 假设 给 定 可 行内 点 e, 说 明 如 何 确定 下 一 步 的 点 UR 
对 于 给 定 的 点 L > 0, 定义 一 个 把 任意 点 xz > 0 仍然 映射 
为 所 有 分 量 为 正 的 点 y> 0 的 映射 


yj cal? (=1,2,..,n) (5.44) 


和 前 节 一 样 ， 把 以 aU? oor fo He HERO EAE Re iacu DO) (参照 
5k ($17), 3È (5-44) 可 以 用 下 面 的 向 量 来 表示 . 


y= (D9)7ta (5.45) 


它 是 变量 z 的 空间 到 变量 y 的 空间 的 线性 变换 ， 请 特别 注意 它 
把 现在 的 点 zt*) 映射 至 点 < = {1,1,.….,1)T7. 
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利用 式 (5.45) 的 变换 ， 可 以 把 问题 (5.42) 表示 为 下 面 的 等 
价 问题 . 
目标 函数 : (y — 最 小 


5.46 
约束 条 件 ， AUVy—b y>0 (949) 
RE, dH, ACO. 分 别 是 由 和 式 (5.23), (5.24) 一 样 的 
ct = pec (5.47) 
AUC) = ADY (5.48) 


所 定义 的 ” 维 向 量 和 mm x n OB Re. 

问题 (5.46) 里 ,考虑 从 对 应 现在 点 H 的 点 Y=。 开始 ,向 
使 目标 函数 (ce))Ty 减少 最 大 的 方向 移动 . 这 个 时 候 ， 在 不 违 
反 约束 Ay =b 的 条 件 下 ， 定义 到 子 空间 (ye R^] Ay = 0) 
上 的 投影 矩阵 


—1 
PË = 1- (AW (APA) — AO (5.49) 


把 目标 函数 的 最 速 下 降 方向 向 量 -H 投影 到 于 空间 {y E 
R"|A(9y — 0) 上 得 到 的 向 量 


一 6 = pu (5.50) 
进一步 作 长 度 为 1 的 正规 化 


PEE 


= 一 一 一 5.51 
TEC Gn 


以 它 为 搜索 方向 (移动 方向 ). Ak, REAA y= e 出 发 沿 向 量 
dU) 的 方向 前 进步 长 0<a<1 后 得 到 的 点 
y= e+adt) (5.52) 
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进一步 ， 通 过 对 点 y 实施 式 (5.45) ODER, MERR a 空间 
EHF- PERA 


a6 = pU) (e+ aod) = a + ape (5.53) 


为 求 出 搜索 方向 dUO, 有 必要 计算 式 (5.50) 的 向 量 a. 实 
奈 上 如 下 的 考虑 方法 很 方便 . 首先 ， 注意 到 根据 式 (5.47)-(5.50)， 
成 立 


a = pu) (e -AT (4 (Dwar) A (Dte) (5.54) 
这 里 ， 如 果 令 
7 = e- AT (A (DAT)? A(D®)e (5.55) 
则 由 式 (5.54) 有 
a -DODrt (5.56) 
进一步 令 
we 一 (4 (pipa) A(DO ye (5.57) 
则 式 (5.55) 可 表示 为 
r n ec AT OD (5.58) 


是 ,首先 求 出 式 (5.57) 的 w, EE fe R (5.58) 计算 r, 最 
后 由 式 (5.56) 求 出 eU 即 可 . 

RE, WUTA x+ 是 问题 (5.42) 的 可 行内 点 ， 以 及 
根据 式 (5.53) 的 选 代 得 到 的 目标 函数 值 会 减少 . 
首先 ， 由 式 (5.48), (5.53) 威 立 有 


ATED = ASUD + ad 人 (5.59) 
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然而 根据 投影 矩阵 的 性 质 有 4(9P = 0, 所 以 如 果 考 虑 式 
(5.50), (5.51), 则 式 (5.59) 的 右边 第 二 项 成 为 0 于是， 由 假定 有 有 
Art = b, 因而 得 到 AIUTO = 另外 ， 搜 索 方向 向 量 dO 已 
作 了 长 度 为 1 的 正规 化 ， 因 步 长 0< a < 1, È (5.52) 的 了 的 
分 量 全 部 为 正 0. 因此， 对 它 进行 式 (5:45) 的 道 变换 得 到 的 点 
T+1) 也 满足 xt >0. 

下 面 ， 根 据 式 (5.53) 有 


Ta) eT eU a aT pegu 


再 注意 到 由 式 (5.47), (5.50), (5.51) 以 及 投影 矩阵 的 性 质 成 立 
PR = (PPP, 则 上 式 可 以 改写 为 
ere — green. RIP PER noua a alja] 


Dm 
(5.60) 


该 式 右边 为 正 ， 所 以 各 和 迭代 里 目标 函数 值 crz(o 单调 减少 . 

上 面 所 述 的 仿 射 变换 法 算法 可 以 概括 如 下 . 针对 该 算法 没 
有 像 Karmarkar 法 那样 在 理论 上 的 明确 的 终止 准则 ， 所 以 在 某 
次 迭代 里 ， 若 目标 函数 秆 的 减少 量 足 够 小 ， 便 结 束 计算 . 


算法 AFFINE ( 仿 射 变换 法 ) 


第 一 步 (初始 化 ): 选取 适当 的 初期 可 行内 点 z(0, 步 长 0 < a < 
LES ME EO. $ ki 


第 二 步 (计算 下 一 步 选 代 点 ): 根据 式 (5.53) 计算 200, 


I) 实际 上 ， 如 果 式 (5.52) 中 的 点 yy 在 满足 y > 0 的 范围 内 , 步 长 a 比 1 大 也 
XE. mum, 采用 求 出 每 次 选 代 中 使 式 (552) 右边 为 正 的 o HERE, (为 使 
得 到 的 点 确实 成 为 可 行内 点 ) 把 它 稍微 缩小 (比如 0.99 f&) 得 到 的 值 作为 步 长 
的 方法 ， 在 实际 上 很 有 效 . 
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第 三 步 ( 解 的 判定 ): 如 果 Tr Trt ce 则 结束 计算 ， 否 

A, $ k:—k--1 回 到 第 二 步 . 

仿 射 变换 法 尚未 像 Karmarkar 法 那样 被 证 明 为 多 项 式 时 间 
算法 . 但 是 , 不 考虑 算法 第 三 步 的 停止 条 件 ， 而 让 选 代 无 限 重 
AFE, 则 可 以 证 明生 成 的 点 列 在 适当 的 条 件 下 收 敏 于 问题 的 
Siem. f 

为 此 ,导入 在 第 1 章 里 考察 单纯 形 法 时 用 到 的 非 退 化 假定 
(nondegeneracy assumption), 也 即 问题 (5.42) 的 任意 可 行 基 解 里 
基底 变量 的 值 全 部 为 正 的 很 定 (参照 1. 4). 另 一 方面 ， 针 对 问 
题 (5.42) 的 对 偶 问 题 

目标 函数 ， ru 一 ， 最 大 
约束 条 件 hr <c 


其 中 的 4 个 不 等 式 约束 里 , BEVEREN v 同时 成 立 等 式 的 个 
数 最 多 0 是 m. 该 假定 对 应 于 针对 对 偶 问 题 的 非 退 化 假定 ， 
称 为 对 偶 非 退化 (dual nondegeneracy) 假定 . (与 此 相对 ， 针 对 
问题 (5.42) 的 非 退 化 肯定 称 为 原 非 退 化 (primal nondegeneracy) 
假定 ，) . 

这 里 考虑 由 仿 射 变换 法 生成 的 点 列 (209), Ye I i BE LX 
下 ,可 以 断言 对 正好 普 个 下 标 了 有 H 0, 对 nom TR j 
有 af 一 0. 这 意味 着 ， 以 对 应 于 前 者 的 下 标的 变量 为 基底 变 
量 ， 后 者 为 非 基 底 变 量 的 可 行 基 解 成 为 点 列 (1) 的 极限 , 但 
是 实际 上 ， 可 以 证 明 该 可 行医 解 为 问题 (5.42). 的 最 优 解 . 进 一 
步 还 可 以 断言 ， 式 (5.57) 给 出 的 向 量 序列 (200) dic CT XH 

题 (5.61) 的 最 优 解 . 

1) 几何 学 上 , 考虑 变量 w 的 空间 (m 维 空间 RT) 里 不 等 式 约 来 条 件 ATw x c 


. 分 别 对 应 的 n 个 等 式 所 确定 的 超 平 面 的 时 的 ， 朴 定 没有 其 中 任意 m++1 个 以 
上 相交 于 一 点 的 情况 . 


(5.61) 
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定理 5.3 ( 仿 射 变 换 法 的 全 局 收 黎 性 ) ”假定 问题 (5.42) 有 
最 优 解 ， 而 且 满足 原 非 退 化 以 及 对 枫 非 退化 假定 . 在 <=0 的 
时 雹 ， 仿 射 变换 法 生成 的 无 限 点 列 {20} 收 化 于 问题 (5.42) 的 
最 优 可 行 基 解 ， 点 列 (0/9) Weg HR IER (5.62) 的 最 优 解 . 


非 过 化 假定 对 现实 问题 来 说 是 相当 严格 的 条 件 ， 有 人 尝试 
去 掉 该 假定 证 明 仿 射 变 换 法 在 理论 上 的 全 局 收 敏 性 . XEL, 
如 果 设 定 步 长 a 为 适当 值 。 则 即使 没有 非 退 化 假定 也 证 明了 
(209) I SUPR EA , : 

并 不 限于 仿 射 变换 法 ， 关 于 一 般 的 内 点 法 ， 为 了 保证 全 局 
收敛 性 和 多 项 式 时 间 性 等 理论 上 的 收 化 性 , 步 长 一 般 都 必须 设 
定 得 家 当 小 .但 是 ,根据 数值 实验 等 经 验 ， 人 们 知道 在 不 违背 
生成 点 列 的 可 行 性 条 件 范围 内 尽量 选取 大 步 长 的 话 , 在 实际 计 
算 效率 方面 更 令 人 请 意 ， 这样， 关于 内 点 法 的 步 长 之 选择 ， 理 
论 上 未 知 部 分 还 有 不 少 


5.4 减 势 法 


盟 然 前 节 的 仿 射 变换 法 实际 上 有 效 , 但 是 关于 计算 复杂 
性 ， 在 理论 上 还 没有 证 明 其 多 项 式 性 ， 这 节 说 明 与 Karmarkar 
法 类 似 的 另 一 个 内 点 法 . 通过 利用 势 函 数 米 决 定 搜索 方向 及 步 
长 ， 成 功 保证 了 多 项 式 性 .“ . 

和 前 节 同 样 ， 要 处 理 的 问题 是 下 面 的 标准 形 问题 


目标 函数 ， crz — -最 小 
约束 条 件 ， An-b z>0 


(5.62) 


该 问题 的 对 偶 问 题 由 
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目标 函数 : 5Tw 一 最 大 
约束 条 件 : ATw<e 
SESEL 7 节 ). 但 是 为 了 以 下 的 讨论 ， 使 用 松 驰 变量 把 它 
改写 为 
目标 函数 : Tw — 最 大 
HRR: ATw+s=c, s>0 
这 里 ， 与 问题 (5.62), (5.63) 相关 联 ， 定 义 下 面 的 函数 . 


(5.63) 


f(x, 5)  plnzTs — 5  Inajs; (5.64) 


j-1 


RE, p—nkyní(n IN = 的 维 数 ), s= (51,52, .,54)7 E 
题 (5.63) 里 出 现 的 松 驰 变 量 . 称 该 函数 为 针对 问题 (5.62) E 
对 偶 势 函数 (primal-dual potential function). 

因为 对 于 问题 (5.62), (5.63) 的 任意 可 行 解 x, w, s 成 立 


zTs 一 szTfc- ATa) Ty bw (5.65) 
所 以 原 对 偶 势 函数 f(z,s) 也 可 以 写 为 


f(z.s) = pln(cTr — 6*4) — ln zi 一 In sj 5.66) 
j 
j=l j=1 


JER (5.66) 的 势 函 数 和 针对 Karmarkar 法 的 势 函 数 (5.34) 比较 
一 下 ， 除 去 式 (5.66) 里 包含 有 对 偶 问 题 的 数据 这 点 以 外 ， 两 者 
极其 相似 . 

然而 ， 因 为 p 二 n+ n, 把 式 (5.64) 变形 为 


f(z,5) = Vnlna?s — P» (35) (5.67) 
j= 
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根据 算术 平均 和 几何 平均 不 等 式 


T n - 
zs — D= Tj5; 


也 即 
IU 2j5j n^ 
(Ts) 一 


所 以 由 式 (5.67), 成 立 有 
f(z,s) = V/nInzTs—In IE- "e 2 vnlnzTstnlnn > /nInz?s 
(5.68) 
这 里 ， 假 设 对 于 原 问 题 (5.62), 对 偶 问 题 (5.63) 各 自 的 可 行 
内 点 序列 (200), (w, s) 成 立 
FUz s) — -0 
这 个 时 候 ， 根 据 式 (5.65) 和 (5.68), 
Trh — y 一 0 
于 是 ,根据 线性 规划 法 的 对 偶 理 论 (参照 定理 1.4 (iv)), 点 列 (209) 
和 {(wto,s09)] 分 别 收 伍 于 原 问 题 (5.62) 和 对 偶 问 题 (5.63) 的 


最 优 解 . 实际 上 人 们 知道 和 Karmarkar 法 同样 , 当 err bT w 
IEEE OW EHE 


eTe) LP) < g-b (5.69) 


则 从 该 点 出 发 可 以 计算 亲友 的 最 优 解 . 这 里 ， 工 是 表示 问题 数 
据 大 小 的 参数 (参照 式 (5.38). 另外 ， 如 果 考 虑 式 (5.68), M 
(5.69) 在 

F”, 400) < RE (5.70) 
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时 成 立 . 
减 势 法 (potential reduction method) Æi x iE SCR [B 35 98 Jr 
Alz,s) 单调 减少 下 去 ,最终 使 式 (5.70) (I BD, 式 (5.69)) 得 以 满 

足 从 而 求 出 解 的 迭代 法 . 现在 ， LESE RESTE 
Ax =b oN mg, sH ne ATu S (5.71) 


的 原 问题 (5.62), 对 偶 问 题 (5.63). 的 可 行内 点 s w S00. 现 
在 ,回忆 前 节 的 仿 射 变换 法 是 利用 向 量 
FON (1 - (ar (aam) Am) DUC (5.72) 


由 


brD 一 2 pao EE (5.73) 
Te ! 


决定 下 一 步 迭 代 点 (参照 式 (5.51), (5.53)). 这里， 和 式 (5.17), 

(824) 一 样 。 DU) 为 以 zx 的 ,zx 由, 100 ops ge A GONE f 

PR, AU0 是 由 AU) = ADO 定义 的 矩阵 . 与 此 相对 ， 减 势 法 

里 ， 利 用 把 式 (5.72) 右边 的 向 量 。 替换 为 原 对 偶 势 函数 no) 

关于 变量 z 的 梯度 Vaf, s0) 后 得 到 的 向 量 

p= (:- (AT (atr) u am) DOS, f(z, s 00) 

(5.74) 

来 确定 搜索 方向 ， 根 据 原 对 偶 势 函数 的 定义 (5.64) 有 


Vef (a9, s) = 和 -(D9)71e 


(e 是 分 量 全 部 为 1 的 向 量 ), 注意 到 s( = e ATu 和 AO 一 
ADUE), 式 (5.74) 经 整理 后 可 以 得 到 


5 KM AG TY aik P K 
PO = (r- vr (t (at »T) AG Gonna D ee 
{5.75) 
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进一步 ， 减 势 法 里 ， 判 定向 量 PO 的 范 数 是 否 比 某 个 常数 
7>0 更 大 仅 在 
Ig 91] > y (5.76) 
成 立时 更 新 迭代 点 209, 


CE) p(t) 
ag un g L DO 


TE (5.77) 


这 里 ，0 < a < 1 是 步 长 . 进一步 , 这 种 情况 下 ， 对 侦 变 量 的 值 


wt1) -一 w, S(t+1) :一 g (5.78) 
无 变更 . 
相反 ， 式 (5.76) 不 成 立时 ， 不 更 新 原 变 量 
get := v) (5.79) 
而 对 对 偶 变 量 作 如 下 更 新 


一 T 
WED := (AAMT) 1 (n9 - em) 
p 


= (apar) (amome - ea) (5.80) 


s*tD .=e — ATSOSD (5.81) 


另外 ， 容 易 验证 式 (5.81) 的 s*+D 和 式 (5.75) 的 pO ZARE 
有 


CE) p Kk) 1) 
p™ = ED sco. (5.82) 


的 关系 , 所 以 计算 Bt*) 时 ,首先 从 式 (5.80), (5.81) 中 求 出 C0, 
把 它 代入 式 (5.82) 中 求 出 905, 这 样 就 没有 必要 在 做 式 (5.76) 的 
判定 后 重新 计算 sen, 


算法 PR (RWE) 
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第 一 步 (初始 化 ): 夺取 适当 的 初始 可 行内 点 210), (0, (0), 步 长 
Ococl £93,250 $ k:=0. 


第 二 步 (计算 下 一 步 选 代 点 ): 计算 式 (5.75) 所 定义 的 向 量 09. 
如 果 式 (5.76) 成 立 , 则 由 式 (5.77), (5.78) 确定 a D, wt), 
SUTO. 否则 ， 由 式 (5.79)-(5.81) 确定 r +D, w+), seen 


第 三 步 ( 解 的 判定 ): PT MM M 2-5, 则 结 
RIR. 否则， 令 记 := 上 +1 回 到 第 二 步 . 


正面 确认 算法 的 第 二 步 所 确定 的 ztkt+D,ao(krD, stt+ 为 可 
行内 点 ， 首 先 ，z(*+ 由 式 (5.77) 给 出 的 情况 下 ， 根 据 前 节 与 
针对 仿 射 变换 法 的 讨论 (参照 式 (5.59) 及 其 后 的 段落 ) 一 样 的 理 
由 成 立 

Age D ua, aD > 0 
其 次 ， 考 虑 wD E sD 由 式 (5.80), (5.81) 给 出 的 情况 .为 
证 明 它 是 可 行内 点 只 要 证 明 stt+D > 0 RET. 因此， 如 果 向 
BO 具有 满足 Pt < 0 的 分 量 ， 则 根据 式 (5.82), 对 于 向 
Bj 的 对 应 分 量 成 立 部 9 < 1. 进一步 ， 由 范 数 的 定义 ， 成 


x 
ls = 5 EPY 2 ii| > 1 
j=1 


EER wD 和 S07 时 式 (5.76) 的 反 向 不 等 式 ll € y «1 
应 该 成 立 . 这 导致 矛盾 ， 所 以 ， 必 须 有 +D >o, 

作为 更 重要 的 事实 ， 如 适当 设 定 在 判定 2%) 的 大 小 时 Ge 
(5.76)) 用 到 的 参数 7, 则 在 满足 式 (5.76) DE E 通过 巧妙 选取 
步 长 oa, 可 成 立 


FaH — o Ug Ip, s0) < f(a, s) g (5.83) 
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在 不 满足 式 (5.76) 的 时 候 。 对 式 (5.81) 的 sD 可 以 断言 成 立 


(zt EHD) < f(a), s 一 (5.84) 


这 里 ，5 是 依赖 于 7 和 o 而 确定 的 正常 数 了 . 于是， 根据 式 
(5-77) - (5.81), 不 论 在 哪 种 情况 下 都 成 立 


F(ztk+D， sn) « f(a(9), S9) -ő (5.85) 


利用 式 (5.85) 可 以 估计 减 势 法 的 迭代 次 数 . 为 此 要 作 的 假 
定 是 选取 初期 可 行内 点 使 之 满足 


f(a(9, (9) < O(VnL) (5.86) 


实际 上 选取 成 立 式 (5.86) 的 初始 点 时 需要 些 技巧 ， 在 这 里 仅仅 
指出 只 要 选取 初始 点 使 之 满足 


PPP aaa = apa 
以 及 
(a(9)T S < 2t 


则 根据 式 (5.67), 条 件 (5.86) 确实 成 立 . 式 (5.86) 意味 着 对 某 个 
常数 >0 有 
F(z 9, 99) < p mL 


所 以 由 式 (5.85), 第 大 次 选 代 里 成 立 
FE, s) < f(a, s) — k < pyn — kê 


1) y = min (sv 83.1 - 8) {这 里 8 = 0.43), MEG œ = 0.3, 则 对 
6 — 0.05 式 (5.83), (5.84) .成 立 . 
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FE, RES k= (uc 16- VAL 则 

f(s, s®) < RL 
也 即 式 (5.70) 成 立 ， 而 且 这 个 时 候 第 三 步 的 停止 条 件 也 得 以 满 
AR. 所 以 知道 算法 的 最 大 迭代 次 数 是 O( VL). 


定理 5.4 ( 减 势 法 的 多 项 式 性 ) 在 选取 初始 点 使 之 满足 式 
(5.86) 的 时 候 , 针对 问题 (5.62) 的 减 势 法 在 DO(VaE) 次 的 迭代 里 
停止 另外 ， 各 和 迭代 里 的 计算 量 可 以 控制 在 问题 规模 的 多 项 式 
内 ， 所 以 减 势 法 是 多 项 式 时 间 算 法 . 


5.5 文献 及 其 它 话题 


本 章 叙 述 了 针对 线性 规划 问题 的 新 方法 一 椭 球 法 及 内 点 
法 . 比 起 单纯 形 法 这 两 个 方法 历史 都 短 ， 详细 讲解 的 教科 书 并 
TÉ. 在 第 1 章 介 绍 的 线性 规划 法 教科 书 里 ， Chvatal [C83] 讲 
解 了 拱 球 法 ， 今 野 [K87] 讲解 了 内 点 法 , 伊 理 [E56] 讲解 了 两 个 
方法 .另外 ， Goldfarb, Todd [GT89] 里 也 有 综合 讲解 . 

5.1 节 的 炳 球 法 是 Khachiyan [K79] 担 出 的 针对 线性 规划 问 
题 的 第 一 个 多 项 式 时 间 算 法 ,发 表 的 当时 引起 了 巨大 反响 W 
球 法 并 不 是 Khachiyan 一 人 的 创作 ,而 是 发 展 了 在 此 之 前 原 苏 
联 科 学 家 甚 惑 奶奶 持之以恒 研究 出 的 非 线性 最 优化 方法 的 结 
果 . Blend 等 的 综述 论文 [BGT81] 里 有 关于 桶 球 法 的 详细 讲 
解 

5.2 节 所 述 的 方法 是 Karmarkar [K84] 在 1984 年 发 表 的 多 项 
式 时 间 算 法 ， 它 成 为 其 后 有 关内 点 法 的 活跃 研究 之 出 发 点 . 
5.8 节 提 到 的 仿 射 变换 法 在 Karmarkar 的 论文 发 表 之 后 ， 立 刻 
由 Barnes [B86] 等 做 了 更 进一步 的 研究 ， 但 是 后 来 判明 Dikin 
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[D67] 早 在 六 十 年 代 就 提出 了 同样 的 方法 ， 仿 射 变换 法 还 没有 
被 证 明 是 多 项 式 时 间 算 法 . 另外 ， 全 局 收敛 性 的 证 明 在 非 退化 
的 假定 下 比较 容易 , 但 在 出 现 退 化 的 情况 下 有 必要 作 复 杂 讨 论 
(XE [T91]). 有 些 研 究 者 在 尝试 把 仿 射 变换 法 与 势 函数 结合 起 
来 构造 多项式 时 间 算 法 ， 5.3 节 的 结果 引 自 Ye [Y91]. 

内 点 法 里 除 上 面 所 述 的 内 容 之 外 还 可 以 考虑 各 种 各 样 的 
变化 (GTS9]. 另外 .虽然 本 书 几乎 没 能 涉及 到 ， 为 有 效 执行 内 
点 法 ， 有 必要 在 包含 用 到 的 数据 结构 在 内 的 各 种 计算 上 下 工夫 
[AKRV89, M92]. 然而 ， 像 在 5.2 节 最 后 讲 到 的 那样 ， 有 经 验 事 
实 表明 ,内 点 法 与 问题 的 大 小 无 关 ， 几乎 在 一 定 的 选 代 次 数 里 
可 以 得 到 足够 精度 的 近似 解 . 于 是 ， 在 与 单纯 形 法 作 比 较 的 情 
况 下 ， 可 以 认为 随 着 问题 的 规模 变 大 ， 内 点 法 越 来 越 有 利 . X 
际 上 ,也 有 计算 实验 结果 [MMS89,MM87] 报告 说 即使 是 数 百 变 
量程 度 的 问题 ， 内 点 法 比 起 单纯 形 法 也 要 快 ， 另 外 ， Bixby 等 
[BGLMS92] 报告 了 把 [LMS92] 提出 的 内 点 法 与 单纯 形 法 进行 组 
S, 解决 了 变量 数目 达到 12,753,313 的 巨大 规模 问题 的 事例 . 

把 内 点 法 应 用 到 不 限于 线性 规划 问题 的 更 一 般 的 问题 的 尝 
试 很 活跃. 特别 是 , 小 岛 等 KMNY91] 把 内 点 法 推广 到 包含 二 次 
规划 问题 的 称 为 线性 互补 问题 (linear complementarity problem) 
的 问题 里 ,成 功 地 构造 了 具有 和 线性 规划 问题 情况 同样 程度 的 
计算 量 的 多 项 式 时 间 算 法 . 
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第 6 章 神经 网 络 和 最 优化 


神经 网 络 是 模仿 人 脑 结构 进行 高 度 平 行 分 散 处 理 的 数学 
模型 . 神经 网 络 的 想法 本 身 并 不 是 什么 新 东西 ， 可 最 近 有 人 提 
出 了 几 个 有 意义 的 想法 扳 起 了 新 的 研究 热潮 .这 章 从 被 称 为 
神经 网 络 锥 形 的 古典 模式 识别 开始 到 误差 逆 传 播 法 及 Hopfield 
网 络 产生 的 组 合 优化 法 ， 选 取 与 最 优化 密切 相关 的 课题 进行 讲 
解 . 


6.1 神经 网 络 


一 般 说 来 ， 神 经 网 络 用 连结 着 神经 细胞 的 神经 回路 网 经 模 
型 化 后 成 为 图 6.1 所 示 的 有 向 图 来 表示 . 神经 网 络 的 各 节点 ( 神 
经 元 ) 是 处 理 要 素 ， 该 处 接受 其 它 节点 的 输出 信号 作为 输入 . 
进一步 对 这 些 输入 作 适 当 变 换 后 决定 该 节点 的 输出 ,并 传递 给 
其 它 节点 . 所 有 这 些 操 作 都 是 各 节点 以 平行 分 散 的 方式 进行 处 
理 . 


6.1 神经 网 络 图 6.3 节点 守 的 输入 和 和 输出 
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现在 在 某 时 刻 节点 i 的 输出 设 为 ri- 这 里 z: 是 满足 0 < 
zi 和 1 的 实数 . 再 把 能 够 直接 传送 输出 信号 到 节点 i 的 节点 j 的 
集合 用 IN(Gi) 表示 . 这 时 车 从 节点 7& IN(i) 送 来 的 信和 号 zj; 到 达 
节点 时 扩大 wy 倍 ， 则 节点 的 输入 的 总 和 为 并 jerwtg Vits 
(图 6.2). 节点 i 把 这 个 输入 用 适当 的 输出 函数 G: R 5 [0,1] 3e 


ET 
n cf E ws -&) (6.1) 


M 
| 
s 


GAER Gra) OSHER Gs (x) 
图 6.3 输出 函数 G(z) 之 例 
参数 wij 是 表示 节点 了 和 ji 连接 强度 的 权 系数 0 . 式 (6.1) 的 多 是 


表示 节点 i 的 行动 基准 的 参数 , 称 为 M I (threshold value). 另外 
作为 函数 G, 经 常用 到 图 6.3 所 示 的 B E E. (threshold function) 


1, 34 z>0 时 
Gr(z)= < 0 mE 1, 当 ==0 时 (6.2) 
0, 4 r>0 H 


以 及 S- 型 函数 (sigmoid function) 


Gs(z) = : 


1- exp(-z) (63) 
特别 是 S- 型 函数 Gs 可 微 ， 其 导 函 数 Gs 成 立 有 


Gu = Eos Gsl) ^ (64) 


DRRR wii 并 不 限于 正 ， 
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在 这 种 神经 网 络 里 ， 要 解决 的 问题 是 ， 为 了 证 网 络 作为 整 
体 完成 所 要 求 的 操作 该 如 何 确定 节点 间 的 权 系 数 以 及 各 节点 
BUE. 下 面 要 讲 ， 人 们 为 此 考虑 了 各 种 基于 学 习 的 方法 . 


6.2 模式 识别 和 感知 器 


6.2.1 模式 识别 

模式 识别 (pattern recognition) 的 基本 问题 是 ， 在 给 定 图 像 
和 声音 等 的 模式 时 ,识别 它 们 是 否 属于 某 个 类 别 . 要 是 把 各 模 
式 用 m 维 向 量 表示 的 话 ， 可 把 给 定 的 模式 的 集合 看 成 是 m dE 
空间 Rm 上 的 点 集合 .这 时 ， 有 像 图 64(a) 那样 ， 属于 某 个 类 
别 的 模式 (o) 和 不 属于 的 模式 (x) 可 以 用 空间 RT 的 某 个 超 平 
面 分 离 的 情况 ， 也 有 像 图 6.4(b) 那样 不 可 能 用 超 平面 分 离 的 情 
UL. 在 前 面 那 种 情况 下 ， 称 所 给 的 模式 集合 线性 可 分 (linearly 


separable). 


Po M o 9 
o o o o o 
o x x x 
x 
x © ? o 
x 
x x 
- 
P P 
(2 & HT 2 hf (b) 线性 不 可 分 的 情况 
图 6-4 模式 空间 


现在 ,给 定 NN MERE p, p? p, 不 失 一 般 性 ， 设 
这 些 模 式 向 量 中 的 先头 N’ 个 属于 某 个 类 , 而 剩 下 的 N 一 NW' 个 
不 属于 该 类 . 这 时 ， 车 是 这 个 模式 集合 线性 可 分 ， 那 么 存在 m 
维 向 是 v = (v1,v2,.….,vm) 及 实数 9 使 得 
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Tp -9>0 (s—12,..,N)) 
{ (6-5) 


vp 8 «0 (s=N +1, N +2,...,N) 


成 立 .也 就 是 说 , 模式 向 量 p 的 空间 R 中 用 {pluTp = 0) 表示 
的 超 平面 可 以 分 离 属于 这 个 类 的 模式 和 不 属于 这 个 类 的 模式 . 
TR. 对 于 线性 可 分 的 模式 集合 来 说 , 若是 知道 满足 式 (6.5) 的 
(v,8) e Rmt1, 则 图 橡 模式 的 识别 实际 上 就 成 为 可 能 的 了 . 

因此 ， 著 把 m+ 1 维 向 量 (p, 1) 以 及 (v6) 分 别 记 为 ge 
w, RJ (6.5) 可 写成 


{ wig >0 (s=1,2,...,N’) (6.6) 


wTg <0 {(s=N'+tlN’+2,...,N) 


以 下 考虑 (6.6) 而 非 (6.5). 用 满足 (6.6) 的 向 哩 w 表示 分 离 模式 
向 量 o 的 空间 的 超 平面 wTg = 0. 进一步 ,为 表述 方便 ， 把 向 量 
w, q BASE m1 n. 

但 是 , 把 满足 式 (6.6) 的 w 扩大 任意 正 数 倍 后 仍 满足 式 (6.6). 
因此 可 把 式 (6.6) 换 成 


Tg > 1 —1,2,.,N* 
wg oz (s QNI) (6.7) 
wig < 一 1 (s =N'+1,N' & 2,., N) 


与 满足 式 (6.6) 的 全 体 w 的 集合 是 开 集合 相 比 ， 满 足 式 {6.7) 的 
是 闭 集 合 ， 在 很 多 场合 下 后 者 的 数学 处 理 要 方便 些 ， 


6.2.2 感知 器 

感知 器 (perceptron) 是 用 于 认识 模式 的 “计算 机 器 ". 自 五 十 
年 代 后 期 至 六 十 年 代 引 起 了 广泛 注意 . 特别 是 ， 对 上 述 问 题 用 
上 了 图 6.5 所 示 的 , 称 为 基本 感知 器 的 神经 网 络 . 在 图 6.5 的 基 
本 感知 器 里 ， 网 络 的 输入 是 n 维 向 量 x, 其 各 分 量 =; 是 通过 节 
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点 了 送 到 节点 7 的 ,现在 如 果 各 节点 了 = 1,2,..,n 和 节点 + 的 
权 系 数 为 w, 节点 了 的 出 力 信 和 号 zi 的 加 权 和 az = 72 way 
便 成 为 节点 > 的 输入 . FWA wTz 为 正 ， 则 节点 + 输出 1, 若 
输入 wTz 为 负 ， 则 节点 7? 输出 0. 也 就 是 说 ， 把 节点 + 的 输出 
用 z 表示 的 话 ，z 由 式 {6.2) FR M ARK Gz 


z = Gr(w'z) (6.8) 


确定 - 


图 6.5 基本 感知 器 


要 把 这 种 基本 感知 器 用 于 6.2.1 的 模式 识别 必须 设 定 使 输 
入 为 ghas.. gM 时 输出 z=1, 输 入 为 gN'+tl,gN12,.,,,gN 时 
输出 z= 0 的 权 系 数 w. 但 是 ， 这 种 权 系 数 w 都 是 一 次 不 等 式 
'6.6) 或 不 等 式 (6.7) 的 解 ， 因 此 ， 只 要 找到 这 些 不 等 式 的 解 ， 
就 做 成 了 达到 所 期 竺 目的 模式 识别 机 器 . 

为 求 出 满足 式 (6.6) 的 权 系 数 w, 考虑 下 述 被 称 为 改 错 学 习 
(learning by error correction) 的 方法 . 首先 、 在 适当 设 定 了 权 系 
数 的 感知 器 里 ， 逐 次 输入 待 识别 的 模式 ， 等 到 出 现 了 错误 输出 
时 再 修改 权 系数 . 经 过 这 种 手续 后 ， 可 以 期 待 最 终 得 出 对 任何 
模式 都 有 正确 输出 的 权 系 数 .概括 该 算法 如 下 . 


算法 PERCEPTRON (感知 器 的 学 习 ) 
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第 一 步 (初始 化 ): 确定 权 系 数 的 适当 初始 解 wO < R° 及 正 的 
常数 m ETIN 

第 二 步 (计算 输出 ): $ Ds := k(modN) + 1. 计算 针对 模式 向 量 
v E R” 的 输出 z= Gp ((ot)799). 若 连续 次 都 得 到 正 


确 输出 ， 则 停止 . 
第 三 步 (修正 权 系 数 ): 若 1 < s < 用, 则 
we). w), 当 z — 1 (正确 输出 )} 时 (6.9) 
w) ong’, 34i — 0 (错误 输出 ) 时 
d ON +ISsSAN, 则 
(6.10) 


"a w® —ng*, cz — 1 (错误 输出 ) 时 
at :一 
wh), 当 : = 0 (正确 输出 ) 时 


$ kikti, 回 到 第 二 步 . 


下 面 桨 单 说 明 该 算法 第 三 步 所 执行 的 修正 权 系数 的 想法 . 
当 输入 模式 向 量 g (1 < s < N') 时 ， 车 网 络 输 出 正确 信号 > = 1， 
则 不 修正 权 系数 的 值 . 但 是 ， 若 网 络 错误 输出 z=0, 就 要 强化 
与 模式 向 量 的 第 了 分量 3 为 正 的 节点 了 的 接合 ， 反 之 ， Ed 
化 与 时 < 0 的 节点 j 的 接合 (参照 式 (6.9))， 也 就 是 ， 要 按 使 
对 模式 向 量 o^ 的 输出 成 为 1 的 方向 禾 正 权 系 数 . 对 模式 向 量 
9 (N+1<s<N) 的 权 系 数 的 修正 也 是 基于 同样 的 想法 . 

关于 感知 器 的 学 习 算法 有 下 面 的 定理 成 立 . 


定理 6.1 (NEXT RE i A XE HB): 如 果 模 式 向 量 g.g? -g 
线性 可 分 ， 则 对 任意 的 初始 解 vO e Rm 及 ?3>0, 感知 器 的 学 


1) FE kemod N) RRR N 的 余数 . 


196 


习 算 法 PERCEPTRON 一 定 在 有 限 次 迭代 后 停止 . 另外 ， 若 采 
用 最 后 的 迭代 所 得 到 的 权 系 数 , 则 感知 器 能 正确 识别 所 有 的 模 
式 向 量 gt,’ 


在 此 省 略 严 格 的 证 明 ， 可 以 如 下 直观 理解 该 定理 是 正确 
B. BE, WETER (6.6) 的 权 系数 v 的 集合 ， 在 ww 的 空间 
Bgm, REN 个 半空 间 {wlw > 0} ,(s = 1,,2,,,) 以 及 
dulla) w < 0) (s = N' - 1,N' c 2, 2, N) 的 共同 部 分 所 表示 的 
领域 . 特别 是 ， 当 模式 向 量 91,q?,.…,g* 线性 可 分 时 ,该 领域 非 
空 , 图 6.6 示意 了 向 量 w 的 维 数 为 2, 模式 数 N=4 及 N'=2 
的 情况 .这 时 ,不 等 式 (6.6) 的 解 集合 是 阴影 部 分 ， (注意 对 应 
gig? 的 半空 间 和 对 应 q*,a* 的 半空 间 揭 方向 相反 . ) 上 述 学 习 
算法 PERCEPTRON 的 各 次 迭代 里 ， 当 前 的 wt 车 被 包含 在 对 
应 模式 向 量 9 的 半空 间 里 则 不 动 ， 若 不 被 包含 则 向 着 该 半空 
间 垂 直 移动 ， 其 步 长 为 9>0. 可 以 看 出 ， 只 要 解 集合 非 空 ， 按 
图 6.6 所 示 重 复 这 种 移动 后 总 能 在 一 定时 候 到 达 解 集合 里 . 


"n 


《1929Tw = 和 0 


转 6.6 在 权 系 数 的 空间 里 学 习 算 巷 的 运行 这 里 ， 解 集合 (阴影 部 分 ] 是 
dwll w > 0, (42)7 w > 0Dtearto < 0, (g*)Tw < 0) 
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感知 器 算法 是 非常 简单 易 慌 的 方法 ， 但是， 使 用 固定 步 长 
有 可 能 引起 到 达 解 集合 所 要 的 迭代 次 数 不 必 要 地 多 . 因此 ,在 
算法 的 各 次 迭代 里 ， 当 前 的 at) 不 包含 在 对 应 模式 向 量 g 的 
半空 间 里 的 时 候 , 可 以 考虑 根据 点 wt 到 该 半空 间 的 距离 决定 
实际 移动 步 长 , 直观 说 来 ,这 相当 于 在 对 某 个 模式 有 错误 输出 
时 ， 按 该 差错 程度 决定 权 系 数 的 修正 量 . 

算法 上 ， 该 操作 相当 于 针对 联 立 一 次 不 等 式 使 用 被 称 为 
逐次 投影 法 (successive projection method) 或 松弛 法 (relaxation 
method) 的 方法 . 为 进行 正确 的 数学 处 理 , 在 此 考虑 求 满足 不 等 
式 (6.7) 的 w. 现在 假定 点 wt 不 包含 在 半空 间 (wo (g) Tw > 1) 
里 ， 也 就 是 说 (qt) w09 <1, 则 可 以 说 点 w 在 该 半空 间 的 正 
投影 点 为 w 十 Q1 — (g) wg? /la*l? (图 6-7). 


*Erg8(wel(nwzl 


40900 


RE 4 


$e 


图 6.7 至 半空 间 (s")zrw > 1 上 的 投影 


选取 这 样 得 到 的 点 为 w*+1) 的 方法 便 是 逐次 投影 法 . 再 
者 。 有 很 多 情况 下 , AEREAS AA oD, 而 用 稍微 大 
一 点 的 步 长 确定 w*+D 的 话 , 从 收敛 速度 这 一 点 来 说 要 好 . 用 这 
种 方法 , 在 学 习 算 法 第 三 步 里 , 代替 (6.9), (6.10, $$ 1« 8 & N", 
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则 以 


NT 2-1 M 
wet :一 Ty (6.11) 
1 - (Tu i 
o) " 2 
w t Ang, z-0 时 
le " 
E N'.*1sssN, WD 
s\T (k) 
ww A 
+l :一 llesll (6.12) 
wh, z=0 时 


来 更 新 权 系 数 w. 这 里 ， 式 (6.11), (6.12) 中 的 入 是 调整 步 长 
的 常数 .现在 已 经 知道 ， 若 确定 满足 0 «A < 2 的 和 ,所 生成 
的 权 系 数列 (09) 收敛 于 不 等 式 (6.7) 的 解 集合 . 因此 ， 在 这 
种 情况 下 ,满足 狭义 不 等 式 (6.6) 权 系数 w 也 可 经 有 限 次 选 代 
得 到 . 再 者 ， 正 如 上 面 所 述 ， 实 际 计算 中 经 常 选 取 大 一 点 的 步 
长 ，1< «2 这 时 该 方法 成 为 对 联 立 一 次 不 等 式 的 逐次 过 组 
法 (successive over-relaxation method, SOR 法 ). 这 样 ， 确 定 感知 
器 权 系 数 的 问题 ， 因 为 本 质 上 仅 是 解 不 等 式 (6.6) 或 (6.7), 把 针 
对 联 立 一 次 不 等 式 的 各 种 方法 纳入 学 习 算 法 是 可 能 的 . 


6.3 多 层 网 络 的 学 习 


图 6.5 的 基本 感知 器 可 看 成 以 节点 1,2,..…,n 为 输入 层 ， 节 
点 7 为 输出 层 的 双 娠 网 络 ， 因 结构 单纯 ， 不 适 于 非 线性 可 分 模 
式 集 合 的 识别 等 等 ， 其 能 力 有 限 . 为 改善 这 类 感知 器 的 缺点 ， 
采用 多 晨 网 络 (multilayer network) 的 党 试 活跃 起 来 了 . 

为 简单 起 见 ， 在 此 考虑 图 6.8 所 示 的 三 层 网 络 . 第 一 层 ( 输 
入 层 ) 的 各 节点 了 = 1,2,…,n 接收 输入 信号 xz; 并 把 它 传递 到 第 
二 层 的 节点 1=1,2,.…,m. 这 时 ， 若 节点 了 和 节点 i 的 权 系数 为 
ai 的 话 ， 则 到 第 二 层 的 节点 i 的 输入 的 总 和 成 为 907 vagas. 
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节点 运用 适当 的 输出 函数 G, 把 该 输入 变换 成 


w-G p wá (6.13) 
j=1 


后 送 至 第 三 层 (eum) 的 节点 ?+. 车 第 二 层 的 节点 i 和 节点 
的 权 系 数 为 wi, 则 送 到 节点 r 的 输入 成 为 Dirwy 节点 7 变 
EI 


z=G (È wn) (6.14) 
i=l 


后 成 为 网 络 的 输出 . 这样， 该 网 络 经 对 输入 z1,…, zw 作 在 第 二 
层 和 第 三 层 两 阶段 的 变换 后 ， 最 终 输 出 信号 z. 这 时 , WBA 
从 网 络 的 外 部 春 不 见 ， 有 时 也 称 为 隐 层 (hidden layer). 


图 6.8 多 层 网 络 


现在 把 待 识别 的 六 个 模式 向 量 记 为 r* = (zi za zs 一 
1,2, ., N), 各自 分别 对 应 的 由 网 络 给 出 的 希望 输出 设 为 中 (二 
1,2.., N) 在 此 ， 与 前 节 限 定 输 出 为 0, 1 的 二 值 模型 不 同 ， 本 
节 所 考虑 的 各 节点 的 输出 可 取 0 和 1 之 间 的 连续 值 另外 ， 像 
后 面 要 说 的 那样 ， 在 以 5- 型 函数 Gs 为 输出 函数 的 情况 下 ， 
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输出 取 开 区 间 (0,1) 内 的 值 而 不 允许 取 正 好 为 0 或 1 的 值 ， 于 
是 ,在 这 种 情况 下 ， 选 取 (比如 说 ) 0.1 和 0.9 作为 希望 的 输出 
d (s = 1,2,..., N). 

网 络 的 权 系 数 为 = (vistas ss mu), w = (W, wa, sss Wma) 
时 ,对 应 各 模式 向 量 x* 的 第 二 层 的 输出 记 为 y(v) = (ut (o) yo), 
EX MQUE 接受 该 输出 后 第 三 层 (节点 7) 给 出 网 络 的 最 终 输 出 
记 为 z?(v,w). 这 时 ， 目标 成 为 确定 对 所 有 的 输入 模式 ， 网 络 给 
出 正确 输出 的 权 系 数 的 值 ， 也 就 是 ， 解 下 面 的 以 权 系数 w, w) 
为 变量 的 联 立 非 线 性 方程 组 . 


zl(v,w)}) = d! 
z(vw) = d 

(6.15) 
zN(v,w) = dN 


像 上 面 所 说 过 的 那样 ， 以 下 考虑 的 第 二 层 的 各 节点 i 的 输出 y 
和 第 三 层 的 节点 > 的 输出 > 是 0 和 1 之 间 的 实数 ， 并 采用 式 
(6.3) 的 5- EER Gs 作为 各 节点 的 输出 函数 ， 这 时 ， 用 下 式 
所 定义 的 y? (v). 


silv) = Cs 他) (—1,2,.,m, s—1,2, ., N) (616) 
EI 
把 函数 zt (vw) 定义 为 
z*(v,w) = Gs (Een) (s = 1,2, ..., N} (6.17) 


i-i 


联 立方 程式 组 (6.15) 所 含 的 变量 和 方程 式 的 数目 分 别 是 nm 十 mm 
和 N, 故 该 方程 组 一 般 无 解 . 因此 ， 为 构造 使 识别 误差 尽量 小 
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的 网 络 ， 考 虑 使 对 应 输入 模式 z* 的 正确 输出 和 实际 输出 的 二 
L.S E 
e*(v,w) = ge (ood) - dt (6.18 


的 和 最 小 化 的 如 下 问题 . 
目标 函数 ，E(v,w) = Xe (vw) — 最 小 (6.19) 


根据 式 (6.16), (6.17) , (6.18), PI P 2i e° 是 可 微 的 S- 型 函数 
Gs 的 合成 函数 ,关于 变量 (v,w) 可 微 . 下 面 实际 计算 一 下 函数 
e 关于 各 变量 的 偏 微分 . 

首先 ， 根 据 式 (6.18) 和 (6.17), 关于 变量 wi 的 偏 微 分 是 


8e*(v, w) 
Ow; 


-(z*(v,w) 一 qon w) 


=(z*(v, w) - d') Gg (E sat) wi(v) (6.20) 
i=l 
这 里 ， Gs Æ 5- MAM Gs 的 导 函 数 ， 由 式 (64) 给 出 - 
其 次 ， 考 虑 函数 e 关于 变量 ui 的 偏 微分 ， 首先 ， 根据 式 
(6.18) 和 (6.17) 有 


De:(v,w) ,, ‘sOz°(v, w) 
Cw; = (z(v,w)-d T» 


—(z*(v,w) — d*) G5 (Evao ) Yee e (6.21) 


i=l 


进一步 ， 根据 式 (6.16) 有 
学 名 Mo - -G, (5 sat) z; (6.22) 
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结果 ， 由 式 (6.21), (6.22), 函数 e 关于 变量 vi 的 偏 微分 可 表示 
为 


一 (人 ou) - d’) Gs 


(È uarw) wes (È=) 2j (6.23) 
3 一 1 i=l 3-71 


利用 神经 网 络 计算 函数 值 e*(w,w) 的 时 候 , 先 定 下 权 系 数 的 
值 (vw), 第 一 层 里 输入 模式 向 量 zf9. 把 其 数据 送 往 第 二 层 ， 
变换 成 式 (6.16) 的 向 量 y (v) 后 再 送 往 第 三 层 . 在 第 三 层 里 进 
行 式 (6.17) 的 变换 ， 因 要 输出 信号 9w, an) , 把 它 与 对 应 于 输 
入 模式 SU 的 希望 输出 dU) 比较 后 ， 就 可 求 出 式 (6.18) 的 误差 
函数 值 e (v, w). 

再 次 考虑 计算 函数 e 的 微分 的 情况 . 权 系数 的 值 为 ww), 
对 应 输入 模式 O 得 到 输出 cO (oiu) Bf, dd et 的 关于 ws 
偏 微分 ee"fouwjyanu 由 式 (6.20) 给 出 ， 这 个 值 是 把 输出 的 误 
差 信号 (v, w) — d? 和 输出 函数 的 微分 G$ (Xa wigt(v)) 从 
第 三 层 的 节点 " 送 回 到 第 二 晨 的 各 节点 二 可 在 第 二 层 计算 D. 
进一步 , 根据 式 (6.23), 37 XGB (z*(0,w) -4*) GS (可 全 wiy?(v)) 和 
GS (Dja v23) Go 1,2, m) BB BERT ERE Oen (vu) On. 
前 者 也 就 是 在 第 二 层 里 为 计算 式 (6.20) 的 0e*(v,w)/0w, 由 第 三 
层 的 节点 ”> 送 到 第 二 层 的 节点 # 的 信息 ， 后 者 因 是 在 第 一 层 的 
各 节点 i 处 已 经 可 以 求 出 的 量 5, 它们 都 是 可 以 从 第 二 层 的 各 
贡 点 传 到 第 一 层 节点 5 的 信息 . 

这 样 , 在 第 三 层 观测 到 的 关于 误差 的 信息 . 与 输入 信和 号 反 向 
D) 对 S- HERE Gs 来 说 ， 因 成 立 式 (64), 微分 GS (E, warto) 的 值 可 从 
实际 输出 值 Gs (P, wiyt(0)) 直接 求 出 . 
2) 参照 前 脚注 . 


Se*(v,w) 
ovij 
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传递 ,在 第 二 层 的 节点 iG = 1,2, m) 可 以 计算 出 ae (v, w)/0wi, 
在 第 一 层 的 节点 了 可 以 计算 出 9e*(v,w)/8rij, 基于 该 原理 求 误 
差 函 数 的 微分 称 为 误差 递 传播 (error back propagation). 

结果 ,计算 问题 (6.19) 的 目标 函数 的 梯度 向 量 


N 
VE(v,w) = 3 Ve'(v,w) (6.24) 
3 二 1 


时 , 先 固定 权 系 数 (v,w) 的 值 , 依次 把 模式 向 量 = e 输入 网 
络 ,对 它们 分 别 用 误差 道 传 播 法 求 出 Yelto w), VeP(v, wh a VeN 
(cw) f URL BS RT. 

因而 , 对 问题 (6.19), 车 用 最 速 下 降 法 (参照 4.2 节 ), 可 得 到 
如 下 的 计算 步骤 . 首先 , 选取 权 系 数 的 适当 的 初始 值 (ofo) ,afo))， 
在 第 大 次 迭代 里 ， 固 定 权 系数 为 现在 的 值 (wo w), 把 六 个 
模式 向 量 输 入 网 络 ， 根据 式 (6-24) RH VEES w). 其 次 ， 
用 适当 的 步 长 to9 > 0 根据 下 式 


k AK 
sen Lugo L0) EL t 


ij 


ij 


(i212,.,m, f= 1,2,...,n) (6.25) 


(9, td 
sfr iuh - ina EOT n) ) G—i22.m) (620) 


来 更 新 权 系 数 的 值 , 进 入 下 一 次 选 代 . IB IE RISE EL iA Elo, w) 
用 一 维 搜索 确定 ， 通常 也 采用 预先 决定 适当 的 固定 步 长 ， 在 所 
有 的 达 代 里 都 用 这 个 值 的 简便 方法 . 在 适当 的 条 忻 下 可 断言 ， 
这 种 最 速 下 降 法 所 得 到 的 权 系数 列 (000,609) ATRA 
卷 的 最 小 化 问题 (6.19) 的 局 部 最 优 解 . 

最 初 提出 误差 道 传播 法 的 Rumelhart, Hinton, Williams 并 
不 是 把 入 系数 固定 为 0P, w 09) 后 ， 输 入 所 有 的 六 个 模式 向 
量 来 求 出 VEOH, wH). 他 们 给 出 的 是 ， 输入 某 一 个 模式 向 


204 


量 et, 利用 此 时 得 到 的 (对 于 模式 向 量 =* 的 ) 误差 函数 的 梯度 
Vero), w) (参照 式 (6.21), {6.24)), 由 


CHD LUUD 1l qoo 9e* (99, w 9) 
DM LE 
ij 
(-—12.,m jeL2z.n) (627) 


(9, w 
wD :al Loo Oe (09 w) 


f [ ES (i—1,2,..,,m) (6.28) 


直接 给 出 更 新 权 系 数 的 方法 .另外 Rumelbart 等 认为 ， 只 要 选 
EPEE 为 足够 小 的 常数 ,每 输入 一 个 模式 向 量 更 新 权 系 数 
的 方法 (6.27)-(6.28) 可 以 看 作 是 近似 执行 针对 问题 (6.19) 的 最 
速 下 降 法 (6.25)-(6.26), 因而 主张 该 方法 是 合适 的 . 但 是 ， 模 式 
向 量 的 数目 多 起 来 时 ， 一 次 输入 所 有 模式 向 量 的 间隔 里 ， 权 系 
数 的 值 实际 上 应 该 变化 相当 大 ， 上 述 Rumelhart 等 的 解释 未 必 
Xu. 

改变 一 下 看 法 , A (6.27)-(6.28) 的 方法 可 以 看 成 是 对 联 立 方 
程 组 (6.15) 推广 前 节 的 逐次 投影 法 的 结果 . 为 记号 上 的 方便 ， 
UFS u= (vw) 更 设 权 系数 的 值 为 wu = (o9, 00), 把 模式 
向 量 zt OMA. 如 果 zt(u02) A dt, 则 权 系 数 向 量 % 的 空间 
里 点 uU 不 在 曲面 (u|2*(u) = a} 上 (参照 图 6.9). 因此 ， 在 点 
uO 对 方程 式 2*(w) = d* 进行 线性 近似 成 为 


z* (u) + Vz*(u9)T (u — ut) = a (6.29) 


求 出 点 w*) 在 由 式 (6.29) 所 定 的 超 平面 上 的 投影 点 ， 并 记 之 为 
uCD, 点 uD 的 值 能 容易 求 出 ， 


kl) :一 y qr zs (a 0) (6.30) 
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ix. meu 由 


"m z*(u()) — d* 


= Peu (631) 


给 出 0. 因此， 根据 式 (6.18) 有 
Ve*(v,w) = (z*(v,w) — d*)V z^ (v, w) 


ME, u= (vow), Vzt(u9) = (Vaz (0, w), V, z* (99, 500), 
因而 步 长 tt 的 值 暂且 不 管 时 ， 式 (6.30) 5i 5t (6.27)-(6.28) 同 
E. 对 于 在 每 次 迭代 中 选取 一 个 模式 向 量 n, 按 式 (6.30), (6.31) 
更 新 权 系数 的 逐次 投影 法 ， 在 联 立方 程 组 (6.15) 有 解 的 时 候 ， 
TARS, WEARI uO = (v0, w) 与 该 解 充分 接近 
的 话 ， 所 生成 的 点 列 {00 w0) iie UC BE (局 部 收 伍 性 ). 但 
是 ， 能 否 得 到 与 初始 解 的 选 法 无 关 的 解 的 收敛 性 (全 域 收 伍 性 ) 
以 及 联 立 方程 组 (6.15) 无 解 时 的 收 策 性 等 等 ? 这 些 问题 的 解答 
还 不 是 很 清楚 . 


Vatu) 


图 6.9 至 近似 超 平面 上 的 投影 


T) 与 前 节 的 逐次 投影 法 以 不 等 式 为 对 象 相 比 ， 这 儿 的 方法 以 方程 式 (等 式 ) 为 
对 象 ， 因 此 根据 目前 的 在 uU 处 z(u) — d* 的 值 步 长 可 能 为 正 也 可 能 为 
B- 另外 ， 和 前 节 方 法 一 样 ， 也 可 在 式 (6.31) 的 右边 乘 以 常数 0< <2 作为 
步 长 60 (参照 式 (6.10), (6.11))- 
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6.4 Hopfield 网 络 和 组 合 优化 


考虑 如 下 0-1 非 线 性 (二 次 ) 规划 问题 . 


目标 函数 E(z) = 一 Ja7Wz+bzz — 最 小 
约束 条 件 : zi=0,1 (i= 1,2,...,n} 


(6.32) 


这 里 ， 变 量 为 ” 维 向 量 z = (za .zzzne)7, W = (wg) 0 6 — 
(6.9>,…:bn)]7 分别 为 nxn 常 数 拭 阵 和 nn 维 常数 向 量 . 进一步 
矩阵 W 为 对 称 的 ， 即 假定 


一 ai (2 人) (6.33) 


而 且 对 角 分 量 
wii=0 (i21,2,.n) (6.34) 


与 问题 (6.32) 相关 连 . BBA n TPR i= 1,2, sn, 节点 
j 了 到 节点 i 的 权 系 数 为 wij, WA i REA # 的 神经 网 络 ( 参 
RAG 和 图 6.2). 该 网 络 和 前 节 所 考察 过 的 多 层 网 络 不 同 ， 
尽管 它 也 是 所 有 的 节点 间 均 存在 结合 的 相互 结合 型 的 网 络 , 但 
从 节点 了 到 节点 i 的 权 系 数 wis 等 于 反方 向 的 权 系 数 w (对 称 
TE), 以 及 各 节点 不 存在 自身 反馈 ( 式 (6.34)). 这 种 网 络 一 般 称 
A Hopfield 网 络 , m% E P he EE S (energy function). 

RE, WE Hopfield 网 络 的 所 有 权 系 数 W = (wij) aeg i e 
为 预先 取 定 的 值 ， 考 虚 在 各 节点 的 输出 函数 G RAR (6.2) 的 
AR Gr 时 网 络 的 情况 , 这 儿 设 各 节点 的 输出 为 0 或 1, 在 各 
时 刻 选 取 一 个 节点 进行 输入 输出 变换 . (假定 时 间 为 离散 的 ， 
每 个 节点 都 在 某 个 时 间 内 被 选 出 一 回 ，) 现在 ， 在 时 刻 尺 设 各 
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节点 的 输出 为 PGS 1,2, 8), 车 把 进行 输入 输出 变换 的 节 
点 记 为 9 则 在 时 刻 关 +1 的 各 节点 的 输出 由 : 


a 
Lo 在 M'uga >40 
j=l 
z 
DUDEN =o, 时 (6.35) 
j-1 


E 
o 在 > ugs? <o, 
j-1 


zDD) G=12 nd za) (6.36) 


HU. 这 时 ,考虑 问题 (6.32) 的 目标 函数 瑟 的 变化 量 ， 根 据 
假定 (6.33), (6.34) 和 式 (6.36) 有 
BEE) - EGt9) = (aD — 209) (577, waf? 6.) (637 


但 是 ， 根 据 式 (6.35), 仅 当 (P = 0 而且 YT. wasl > 0, 时， 或 


LESESE E 2M waf? < Aa HH. par z 人 10 uou 在 两 
种 情况 下 式 (6.37) 的 右边 都 为 负 ， 获 成 立 EHD) < Estoy. 
59b. aF — aj 时， 显然 EGD) = EH), 结果 ， 可 以 知 
道 目 标 函 数值 的 数列 {E(z(*))} 为 非 增 的 . 

以 上 分 析 意 味 着 依据 式 (6.35) 和 (6.36) 的 选 代 成 为 对 问题 
(6.32) 的 一 种 下 降 法 . 特别 是 。 当 点 00 的 值 变化 时 目标 函数 
值 也 一 定 严格 减少 , 而 且 点 (9 可 取 的 值 只 有 有 限 (2") 种 ， 因 
而 该 选 代 在 有 限时 间 内 进入 某 个 定常 状态 ， 可 以 断定 在 此 之 后 
20) 的 值 无 变化 ， 进一步， 变动 达到 这 种 定常 状态 后 的 200 的 
任意 一 个 分 量变 化 后 ， 目 标 函 数值 都 不 会 减少 。 因 此 可 看 成 问 


一 
DEA (536) RR 4710 = Cr waa). RB, Y wa = 
的 时 候 ， 设 输出 SED 仍 热 为 该 节点 现在 的 输出 xf 
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题 (6.32) 的 一 个 局 部 最 优 解 0. 

因 问 题 (6.32) 存在 有 多 个 局 部 最 优 解 ， 哪 个 局 部 最 优 解 能 
成 为 上 述 Hopfield 网 络 的 定常 状态 ， 在 很 大 程度 上 取决 于 从 哪 
个 初始 解 出 发 . 这 是 整个 非 线性 最 优化 下 降 法 所 共有 的 性 质 
用 下 降 法 求全 局 最 优 解 是 非常 困难 的 . 因此 实际 上 在 很 多 时 候 
采取 对 各 种 初始 解 进行 计算 ,从 所 得 到 的 几 个 局 部 最 优 解 中 选 
取 最 好 者 . 此 外 ， 还 有 这 么 一 种 想法 . 放松 在 各 选 代 里 目标 函 
数值 单调 减少 的 条 件 ， 根 据 情况 允许 函数 值 增加 ， 摆 脱 不 满意 
的 局 部 最 优 解 后 到 达 更 好 的 解 ， 在 Hopfield 网 络 里 ， 通 过 引进 
如 于 的 概率 机 制 ， 这 种 想法 是 可 行 的 


pis T) 


LLLI 


TILK ih et fR 


- 
x 
图 6.10 5- WEN p(z; T) = 1/(1 + exp(-z/T)) 


首先 ， 定 义 包 含 参 数 荆 >0 S- 型 函数 
1 
peT) = 3 ep zT) 
如 图 6.10 所 示 ， 这 个 函数 随 着 工 变 小 , 在 x =0 附近 变动 很 
X, T—0EBHBOGEBIIESE. 现在 ,假定 在 时 刻 尺 网 络 在 各 节点 
的 输出 为 zt, 该 时 刻 变 换 输入 输出 的 节点 和 以 前 一 样 设 为 9， 
1) 给 定 观 值 向 量 > = (21,22, 24) 8 y = (ni uz. 9). FEE i E vi IRE 


的 个 数 称 为 z 和 9 的 汉 明 距离 。 以 定常 状态 O 点 为 中 心 , 用 汉 明 距离 为 测 
度 的 半径 为 1 的 球 里 面 ， 函数 马达 最 个 .在 这 个 意义 下 ， 威 为 局 部 最 优 解 - 


(6.38) 
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则 到 达 节 点 4 的 输入 为 D war. 因此， 用 函数 paT) 可 
给 定 在 时 刻 天 +1 节点 4 输出 1 的 概率 为 


a 
Prob (2*0 = 1) =p (5 waja — by; r) (6.39) 
j=l 


输出 为 0 的 概率 为 Prob (z^ = 0) = 1 — Prob (af ^! = 1). 也 
就 是 ， 与 式 (6.35) PRERA D wga MR 0 的 大 小 
关系 确切 给 定 下 一 时 刻 的 输出 不 同 , 该 方 法 把 输入 值 与 阅 值 相 
E, 大 得 越 多 则 下 一 时 刻 输 出 为 1 的 概率 就 越 接近 于 1, 但 仍然 
留 有 输出 0 的 可 能 性 ， 相反 , 输入 值 比 竟 值 小 的 时 候 也 可 能 有 
输出 1 的 情况 . HAR, KA EGH) 并 不 限于 单调 减少 ,在 
有 些 挝 代 里 反而 增加 . 这 种 采用 了 概率 机 制 的 神经 网 络 被 称 为 
$ IR dk ML (Boltzmann machine). 

ERAI REBLIB, 称 参数 工 为 网 络 的 温度 . 根据 函数 pz; T) 
的 性 质 (参照 图 6.10), 可 以 看 出 , 温度 全 越 高 , 产生 随机 举动 的 
倾向 就 越 大 ,能 量 函 数值 增加 的 概率 就 越 大 ， 工 接近 于 0 的 时 
候 ， 其 行为 就 接近 于 式 (6.35) 的 确定 性 的 下 降 法 .也 就 是 ， 可 
以 认 为 温度 高 的 时 候 ， 网 络 的 输出 变化 很 活 ， 温 度 低 的 时 候 
容易 落 在 稳定 的 定常 状态 . 因此 ， 有 人 提出 了 采纳 一 种 叫 模拟 
ÀR K (simulated annealing) 思想 的 方法 ， 在 初始 阶段 把 网 络 的 温 
度 设 得 高 点 ,逃离 收 仇 到 不 满意 的 局 部 最 优 解 的 情况 ， 随 着 计 
算 进 行 下 去 ， 慢 慢 地 把 温度 降下 ， 让 它 落 进 满意 的 解 . 

上 述 方法 里 各 变量 ri 的 值 被 限定 取 0, 1 或 2, 放松 该 条 
件 ， 可 取 0 和 1 之 间 的 连续 值 时 候 ， 问 题 (6.32) 也 是 可 解 的 . 
为 研究 这 种 情况 ， 考 虑 如 下 的 二 次 规划 问题 

目标 函数 。 B(z) = -Ja7Wz+erz 一 、 最 小 

约束 条 件 : Oxceizl(i—i12.2n) 


(6.40) 
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连续 变量 问题 (6.40) 的 可 行 域 是 空间 R^ 内 的 立方 体 ， 各 顶点 
对 应 于 0-1 变量 问题 (6.32) B ST fT AE. 设 r* 为 问题 (6.40) 的 任 
意 局 部 最 优 解 ， 根 据 最 优 性 一 次 必要 条 件 (定理 4. 8), 

8E(z") 


zy 一 0 一 7» > 

" 9E(z*) _ 
O<zi<1 pan T’ (6.41) 
"n BEE) -0 


T; 
进一步 根据 最 优 性 的 二 次 必要 条 件 (定理 4. 9), 矩阵 


2 忆 (r) 
Oridr; “ 


ije j (6.42) 


必须 为 半 正 定 的 . 这 里 ， 7 为 满足 0<z?<1 的 集合 ,但 是 
式 (6.42) 的 矩阵 正好 是 从 W 里 取出 对 应 下 标 集 合 7 的 行 和 列 
后 得 到 的 子 和 矩阵 Wir = (wj; ij EJ) R -1 后 的 矩阵 ， 另 外 根 
据 式 (6.34) 有 trace Wy = 0, 因此 式 (6.42) 的 算 阵 一 般 有 正和 
fa RS T GE E D. 半 正定 值 矩 阵 的 特征 值 全 部 非 负 ， 关 此 了 尖 8 
的 时 候 ， 也 就 是 x* 包含 0, 1 以 外 的 分 量 时 ， 式 (6.42) 一 般 不 成 
立 ， 据 此 ， 问 题 (6.40) 的 所 有 局 部 最 优 解 为 可 行 域 (立方 体 ) 顶 
点 ， 可 以 认为 问题 (6.40) 和 问题 (6.32) 等 价 . 

根据 以 上 讨论 ， 我 们 知道 代替 问题 (6.32) 也 可 以 考虑 问题 
(6.42). 其 次 ， 在 开 区 间 (0,1) 上 定义 的 凸 函 数 h, 使 得 当 二 一 0 
BN» SEDE, RX RhE) 一 +o (图 6.11). 利用 函数 h, 定 
义 问 题 


1)nx n 矩阵 4 的 对 角 分 量 的 和 O au 称 为 4 的 迹 ， 用 traceA RR Ë 
矩阵 4 的 特征 值 为 Ai, Xz,…, Xe 的 话 ， 则 trace 4 = POL ,Xi 成立， 因此， 如 
R trace A — 0, 只 要 所 有 特征 秆 并 不 都 为 0, 就 一 定 存在 有 正和 负 的 特征 值 - 
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目标 函数 : Bia) = -3eT We + ore S PED — 最 小 
i-i + 


约束 条 件 ， O<z;<1 (i=1,2,.. n) 
(6.43) 


这 里 ， Ri 为 正 参 数 . 从 图 6.11 可 看 出 ， 函 数 记 是 一 种 罚 和 函数 
(参照 4.7 P). 参数 Ri 的 值 选 得 足够 大 时 ， 问 题 (6.43) 的 最 优 
解 成 为 问题 (6.40) 的 最 优 解 的 好 近似 解 . Bh, RA Ê DEL 
域 为 开 集合 (zeR^]0czc1,6-21,2,.,0) 在 其 局 部 最 优 
解 处 成 立 YE(z) = 0, 因此 可 把 问题 (6.43) 看 成 是 实质 上 无 约 
东 的 问题 . 于 是 ,对 该 问题 ， 可 以 运用 第 4 章 所 述 的 无 约束 最 
优化 方法 . 


Lo 


LREGIUDERGPTLITIEU 


与 此 同时 ， 在 把 变量 = 看 成 时 间 参 数 上 的 函数 的 同时 ， 导 
入 新 变量 u, 也 可 以 考虑 下 面 的 微分 方程 组 ， 这 此 把 时 间 考 虑 
或 连续 的 . 


1) 在 和 于 罚 违反 约束 条 件 的 意义 下 ,通常 的 镶 函 数 在 可 行 域外 部 的 点 取 很 大 的 
fü. 而 画 数 疡 则 是 在 可 行 域 的 边界 处 设置 障碍 ， 使 函数 上 在 最 小 化 时 诅 产 生 
的 点 列 出 不 了 可行 域 . 因此 ， 类 似 亡 的 函数 育 时 饼 也 称 为 障碍 酒 数 (barrier 
function) z& I3 A LEE f (interior penalty function). 
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c, te Tiv 一 太一 zm 
u; =h" (zi) (i = 1,2, ... 7) 


这 里 ， Ci 为 正常 数 ， (AGAR A HFRS. 从 图 6.11 可 
看 出 ， 加 (') 呈 5- 型 函数 的 反 函 数 的 形状 。 TERSA (E 
Bh ORIEK) 处 处 成 立 有 KE > 0. 对 应 于 适当 的 初始 
解 ， 微 分 方程 组 (6.44) RIRH (xt), ult), 则 有 


dE) yt 
dt 


(6.44) 


VÈ(z(t) 


mri j=l 


n 2 

-XeUp Um. -Eome (S8) so 

(6.45) 
因此 ， 沿 着 解 曲 线 ， 函 数 信 户 (x(#)) 非 增加 ，+ 一 oo 的 时 候 ， 
可 以 期 待 e(t) 接近 问题 (6.43) 的 局 部 最 优 解 另外， 由 于 微分 
方程 组 (6.44) 可 在 电路 上 实现 ， 所 以 有 可 能 用 这 种 模拟 计算 模 
型 求解 问题 (6.43). 

本 节 所 考察 的 方法 可 适用 于 各 种 组 合 优化 问题 . 为 此 ， 有 
必要 把 要 解 的 组 合 优化 问题 表示 成 问题 (6.32) 的 形状 ， 但 是 这 
方法 随 着 问题 的 不 同 而 不 同 ， 很 难 做 一 个 统一 的 说 明 , 这 里 把 
第 3 章 所 考察 过 的 旅行 商 问 题 (traveling salesman problem) 作 
为 具 钵 的 例子 举 出 ， 说 明 如 何 能 把 它 模 型 化 为 问题 (6.32) 的 形 
状 . 这 个 问题 是 , 在 有 六 个 节点 v1,w2…,vw 的 无 向 完全 图 里 ， 
节点 ww 和 节点 的 距离 为 c(vi,v;) 时 ， 找 出 正好 通过 各 节点 一 
次 的 回路 (哈密 尔 顿 回 路 ) 中 的 最 短 者 . 另外 ,在 此 假定 对 所 有 
R ij A elvi vj) = eloj v) AR elvin) =0. 如 下 所 示 , 该 问题 


XC YD wgl) 6 3) gac 
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可 用 N? 个 0-1 变量 zi (i = L2,—.,N,£ 12,., N) 来 模型 化 ， 
其 中 变量 Xie 表示 


1， 节 点 vi 在 回路 中 出 现在 第 6 号 时 
Tu= (6.46) 
0, mm 
这 时 ，z = (zu) 为 了 能 表示 哈密 尔 顿 回路 必须 满足 
N 
DO re=1 (-2129L.,N) (6.47) 
^ 
> ru=1 (=1,2,..,N) (6.48) 
i-i 


另外 ， 对 应 = = (zu) 的 回路 长 度 由 


1 NON N 
HOLEPSPSECES (x Tig (Eje + ien) (6.49) 
1 


i j= 4-1 


给 出 . 这 里 , 式 (649) n, f ecd 时 约定 -1=N, 当 t=N 
时 约定 E+1= 1 于 是 ， 旅 行商 问题 可 表示 成 为 ， 在 约束 条 件 
(6.47), {6.48) 下 ， 确 定 由 式 (6.49) 所 定义 的 函数 已 达 最 小 的 01 
变量 向 量 = 的 问题 . 该 问题 包含 有 等 式 约束 条 件 ， 因 不 具备 问 
题 (6.32) 的 有 形状， 导入 针对 约束 条 件 (6.47), (6.48) 的 罚 函 数 


N fN 2 N fN 2 
G(z) 一 > P» zi 一 ) +5 (È zi 一 ) (6.50) 
iz Aezi 2-3 Nil 


后 ， 变 换 成 具备 问题 (6.32) 的 形状 的 问题 


目标 函数 ， F(z) + pG(z) 一 ， 最 小 


(6.51) 
HREP z0—01(-—12,.u) 
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b irora . 


这 里 ， 罚 参数 p 为 足够 大 的 正 数 . 当然 该 问题 有 允 个 局部 最 
RA, 但 是 ， 如 果 解 上 述 问题 所 得 到 的 解 实际 上 满足 约束 条 件 
(6.47), (6.48), 可 以 期 望 该 解 是 旅行 商 问题 的 一 个 好 的 近似 解 . 

最 后 确认 一 下 问题 (6.51) 满足 问题 (6.32) 的 假设 (6.33), 
(6.34). 首先 容易 验证 ,函数 五 的 海 赛 矩阵 为 对 称 的 而 且 对 角 
元 为 0. 另外 ， 关 于 函数 G, 如 果 有 照搬 定义 式 (6.50), 则 海 赛 矩阵 
的 对 角 元 (zi, 的 系数 ) 不 为 0 但 是 ， 从 ic 为 01 变量 的 条 件 
出 发 , 用 rie 代替 z2 的话， 函数 G 可 以 表示 为 不 包含 项 zi 
ER. BA, BREW G HIRERE, 因此， 可 以 明白 问 
题 (6.51) 的 目标 函数 的 二 次 系数 矩阵 满足 式 (6.33)， (6.34) 的 性 
质 . 


6.5 文献 及 其 它 话题 


神经 网 络 是 近年 来 研究 非常 活跃 的 领域 ， 出 版 了 很 多 包 
括 各 种 应 用 在 内 的 论文 及 书 ， 这 里 列举 麻生 [A88], «i: BF [N90], 
Rumelhart, McClelland 等 [RM86] 著作 . 53 ^H, Anderson, Rosenfeld 
[AR88] 收集 编辑 了 该 领域 的 基础 论文 ， 对 于 想 学 习 原 著 的 读者 
来 说 很 方便 . 

6.2 节 的 感知 器 可 以 说 是 30 年 以 前 提出 的 神经 网 络 的 锥 
型 ， Minsky, Papert [MP88] 考察 了 它 的 功能 . 6.3 节 和 6.4 节 
提 到 的 误差 道 传播 法 和 组 合 优化 法 分 别 是 Rumelhert, Hinton, 
Williams [RHWS86] 和 Hopfeld [H82] 提出 的 想法 ， 已 经 成 为 现在 
神经 网 络 研究 的 先驱 . 另外， 关于 6.4 节 所 涉及 到 的 波 尔 兹 曼 
机 和 模拟 退火 法 ， 请 参照 Ackley, Hinton, Sejnowski [AHS85] 和 
Kirkpatrick, Gelatt, Vecchi [KGV83]. 

这 一 章 从 本 书 书 名 一 最 优化 的 观点 讲解 了 有 代表 性 的 神 
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经 网 络 . 特别 是 ， 把 作为 多 家 网 络 的 学 习 算 法 的 误差 着 传播 
法 ,看 成 是 对 非 线 性 联 立 方程 组 的 逐次 投影 法 的 思想 等 、 在 以 
往 的 神经 网 络 教科 书 上 没 怎么 提 及 . 关于 逐次 投影 法 的 参考 文 
献 ，6.3 节 所 涉及 到 的 针对 线性 不 等 式 组 的 方法 有 Censor [C81], 
关于 6.4 节 商 提起 的 针对 一 般 非 线性 方程 式 组 的 方法 的 收 敏 结 
时 有 McCormick [M77]. 
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Ho 


A.l 线性 代数 


以 召 表 示 全 体 实数 的 集合 ， Rn 表示 以 实数 为 分 量 的 全 体 
nn 维 向 量 的 集合 (n 维 实 欧 几 里 得 空间 ). 空间 R 的 元 素 也 称 为 
点 . 以 下 把 向 量 和 点 作为 同 义 语 使 用 ， 根 据 情 况 适当 分 开 . 

^ HEU Er c R^ 的 分 量 用 下 标 写成 zt 72,.… zn 或 者 zi (i 二 
1,2,.…,n). 与 此 同时 ， 向 量 列 或 者 数列 用 ( 带 括 弧 的 ) 上 标 表 示 
成 为 a (0,20, 或 者 (z 9. 

本 书 在 不 特别 声明 的 情况 下 ， 向 量 是 列 向 量 ， 向 量 x 的 转 
置 用 z7 ER. Hn EAE m, Vata — YT. c] 所 给 出 的 量 称 
为 z 的 欧 几 里 得 范 数 (Euclidean norm), 写成 [la]. 基于 这 个 范 
数 ， 空 间 R^ 的 两 点 z,y 的 距离 (distance) 用 |lz - yil 确定. 

对 空间 R 的 点 列 (209), 存在 满足 limo lz 一 2*||=0 
的 点 z* c R" 的 时 候 ， 称 点 z* 为 点 列 (202) 的 极限 (limit), 
点 列 (200) uisi (converge) 于 点 x*. 另外 ， 即 使 在 点 列 (209) 
作为 整体 不 收敛 于 一 个 极限 的 情况 下 ， 只 要 能 够 适当 选取 其 
子 列 {200} 使 得 {x4)} 收 伍 于 点 2* 的 时 候 ， 称 x* 为 点 列 
{x} 的 Æ A (accumulation point)， 对 点 列 (209 存在 满足 
Je] < M(k = 1,2,…) 的 正常 数 M 的 时 候 ， 称 (209) 有 界 
(bounded). 这 样 的 点 列 至少 具 有 一 个 聚 点 - 

对 空间 R 的 子 集合 盛 , 连接 区 内 任意 两 点 的 线段 也 包含 
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TE X 内 ， 即 成 立 
TYEX,0OSa<l = (1-artayex 


ET AR 中 , 称 半 为 凸 集合 (convex set) (参照 图 A.1). 任意 个 数 的 
凸 集合 的 共同 部 分 也 是 凸 集 合 - 对 空间 R" 的 任意 子 集合 X, 称 
包含 它 的 最 小 的 西 集合 称 为 瑟 的 凸 包 (convex hull), 用 conv X 
表示 . 


conv X 


图 Ai 5nsáH"& 


IARE 2 3C RS m T n FERE (mox n SE PE) A, 如 果 它 的 
(5,3) 5 REOS au, 则 把 该 矩阵 简单 记 为 4 = (ay) nx n EBE A BU 
分 量 为 aa —14—1,2,.,5) 而 且 满足 ay —06,j 1,2, ni 
j) IET AR, 称 4 为 单位 矩阵 (unit matrix), 用 了 表示 . 对 于 nxn 
矩阵 4 如 果 存 在 满足 4B = 了 的 nxn E B, UR AAS 
FEF (nonsingular matrix). 另外 ， 这 个 时 候 称 和 矩阵 B X A mS 
着 矩阵 (inverse matrix), 用 A7! Xm. 

XF nxn 矩阵 A, 分 别称 满足 Az = Xz 的 数 入 和 HET 
Æ 6n" 为 4 的 特征 值 (eigenvalue) 和 特征 向 量 (eigenvector). 
另外 ， 如 果 成 立 az = au (7 二 1,2,…,n), MER A 为 对 称 矩阵 
DEE, “AS B 表示 “如果 AN B 的 命题 
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(symmetric matrix). 对 称 矩 阵 特征 值 全 为 实数 . 对 于 ”xn 对 称 
矩阵 4 在 成 立 


z74z >0 (对 任意 z € R”, 40 
的 时 候 ， 称 4 为 正定 矩阵 (positive definite matrix), 在 成 立 
z74z>0 (对 任意 z € R”) 


的 时 候 ， 称 4 为 Æ E EIER (positive semi-definite matrix)0， 正 
定 矩阵 的 特征 值 全 为 正 ， 半 正定 矩阵 的 特征 值 全 非 负 ， 

fnxniBIEL— (5) E, WAN i<j RA dy = o 
HIR, PL FEAE (lower triangular matrix), 把 转 置 矩 阵 
为 下 三 角 和 矩阵 的 矩阵 称 为 上 三 角 和 矩阵 (upper triangular matrix). 
把 nx n 矩阵 A GROS F BABERE LOMDE — FUIS EU 的 积 
A= LU 的 形式 称 为 LU 53 88 (LU decomposition). 在 得 到 矩阵 
4 的 LU 分解 4= LU 的 时 候 ， 联 立 1 次 方程 式 4z = 可 以 
表达 成 为 LUz =b, 故 可 以 通过 先 求 出 方程 式 Ly =b 的 解 y, 再 
解 方 程式 Uz = y RH e 的 两 阶段 来 计算 解 r. 进一步 ， 两 方 
程式 Ly =b, TVz=y 可 以 分 别 仅仅 采用 被 称 为 前 进 代入 和 后 退 
代入 的 代入 操作 来 解 . 特别 是 ， 如 果 和 矩阵 4 为 正定 对 称 ， 则 利 
MTZR L TAHRA 4 = LL". 称 这 是 Cholesky 分 解 
(Cholesky decomposition). 


d 


A2 多 变量 函数 


MERX ARAY 的 映射 iA F:X — Y. 特别 地 ， 
映射 了 : R* 一 只 表示 有 "个 实 变量 的 实数 值 函 数 . 对 函数 
f[IBRDOBHGE 
有 时 也 把 半 正 定 矩阵 称 为 非 负 定 矩阵 - 
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zy€X,.0Xax1 = f((1—o)e +ay) € (1 — of(z) -af(y) 


的 时 候 ， 称 了 为 凸 函 数 (convex function) (图 A2). 
E] 


aeg) eof 7 ---—---- 


fl-a Kay) 


1 
| ' p! 
x atoy y 


图 A2 BkRESES 


jl 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 


函数 / : R" 一 六 中 国定 变量 zs 以 外 的 n-1 个 变量 ， 把 
了 看 成 仅 含 变量 zi 的 单 变量 函数 ， 如 果 它 可 微 ， 则 称 SXF 
zii FT (partially differentiable). 另外 其 微分 系数 称 为 函数 S 
关于 变量 z; 的 情 徽 分 系数 (partial differential coefficient), 写成 
SED 进一步 , m UO mayo, oon S AT ni 的 
" ER 数 (partial derivative) 

MARS R RMAF a MASER TO 进一步 关于 


变量 xi 偏 可 微 ,就 可 得 到 一 次 偏 和 分 系数 zn). = (42) 


以 及 二 次 偏 导 函数 - 
BARR f: Ro RATEAZA zi 的 偏 微 分 系数 为 分 量 
的 n 维 向 量 


(sa 8f(z) era)" 
Oz; ' Ox "7 ra 


为 /的 梯度 (gradient), 用 Vfl) ER. 进一步 ， 称 以 二 次 偏 


BOR DAD 为 第 让 AE oco BPO [SERERE 
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(Hessian matrix), 用 V? f(z) ER. LUE TUE Ecl 4 E T. E 0-3 
E, MERER V?f(z) 对 称 . 进一步 ， 如 果 它 在 任意 的 = 处 半 
正定 则 了 是 占 函 数 . 另外 ,根据 针对 多 变量 函数 的 泰勒 定理 
(Taylor's theorem), 对 任意 向 量 re R" 和 Le R^, 存在 满足 


^ 2 
fred) = fe) Y SE, iE Ie esca, 
pert d 


2I 


fr) + Vf(a)"d4- zav f(z 4 0d)d 
的 e € (0,1), 进一步 成 立 
f(z-d)- f(a) + Vf(s) d 3E FG) 十 oflldll2). 


这 里 ，。: 尽 一 丸 是 上 一 0 的 时 候 成 立 o( 一 0 的 适当 函数 ， 


A.3 Hit 


称 有 限 个 节点 (node, vertex) 的 集合 下 = {o zz n} 和 节 
点 对 的 集合 EVxV = ((w,vj)|v € V, vj e V) 构成 的 组 为 图 
(graph), 用 G = (V,E) m. 称 属于 集合 EE 的 节点 对 e= (vow) 
为 图 G 的 ih (arc, branch, edge), 称 节点 和 w 为 边 e 的 端点 
(end nodes), 边 e 连接 节点 vw. 不 考虑 图 G 里 各 边 的 方向 时 
称 为 无 向 图 (undirected graph), 考虑 方向 因而 区 别 边 (v,w) 和 
(wv) 的 时 候 称 为 有 向 图 (directed graph) (图 A.3 (a) 和 (b)). 有 
向 图 里 的 边 。 = (v, w) 也 被 称 为 有 向 边 (directed arc), 分 别称 节 
点 和 也 为 边 (ow) 的 始点 (tail) 和 终点 (head). 对 节点 9, 称 
连接 它 的 边 的 数目 为 "的 度数 (degree), 特别 是 ， 称 有 疝 图 里 
以 节点 "为 始点 的 边 数 为 w 的 出 度数 (out-degree), 以 节点 v 为 
终点 的 边 数 为 v 的 入 度数 (in-degree). 另外 ， 在 有 向 图 的 情况 
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TF, 把 以 节点 v 为 始点 的 边 集合 记 为 OUT(v), 以 节点 % 为 终点 
的 边 集 合 记 为 IN). 

具有 ?个 节点 的 无 向 图 G 里 所 有 节点 间 存 在 有 边 的 时 候 ， 
Wk G 为 完全 图 (complete graph), 记 为 Kn (图 A.3 (c). 


入- Yn 
(d) 生成 子 图 te) f M» und (RZLLLULI EX 
< | 7 PX 
[EJ (h) XH FÉ MERI [UL Z.2.] 
AG 图 


对 图 G = (WE), 考虑 子 集合 VCV 和 ECE, 如果 任意 
的 ee E' 的 两 端点 属于 V', 则 G = (VE) 也 成 为 图 称 这 种 
G' 为 G 的 子 图 (subgraph). 特别 是 , 图 G = (V, E) E, 两 端点 在 
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集合 VW EV 的 边 集合 与 盏 G 瑟 一 致 的 时 候 ， 称 G' = (7 E) 
为 由 V 产生 的 G 的 生成 子 图 (induced subgraph) (图 A.3 (d) 是 
(a) 的 生成 子 图 ). 

图 G = (V, E) HPAI, E S= vsu, wx 满足 (vistun) EE 
(3 —0,1,.., k — 1) 的 时 组 , Fico 为 从 节点 we 到 vi, 的 路 (path). 
路 7 可 以 看 成 构成 它 的 节点 的 集合 或 者 边 的 集合 ， 有 时 采用 
vy Em AR (vivi) ET 等 记 法 . 另外， 这 个 时 候 称 从 wa 可 
达 (reachable) vi. 进一步 ， 路 7 的 始点 ws 和 终点 vi, 相同 的 时 
候 称 之 为 回路 (cycle, circuit), 包含 在 路 里 的 节点 Vios Vigs oo Uini 
全 不 周 的 时 候 称 之 为 简单 路 (simple path) (图 A.3 (e), 同时 具 
有 两 个 性 质 的 时 候 称 之 为 简单 回路 (simple cycle). 称 通过 图 G 
的 所 有 节点 的 简单 回路 为 哈密 尔 顿 回路 (Hamiltonian cycle) (图 
A3 (f). 

无 向 图 G (忽略 有 向 图 各 边 的 方向 可 以 得 到 无 向 图 ) 里 ， 
任意 两 个 节点 间 存 在 有 路 的 时 候 ， 称 G 为 连通 图 (connected 
graph). 对 一 个 并 不 一 定 连 通 的 图 C, 在 它 的 连通 生成 子 图 中 ， 
称 不 存在 真 包含 在 其 中 的 连通 生成 子 图 者 为 G 的 连通 分 支 . 不 
连通 的 图 可 以 分 割 成 为 相互 不 共 节 点 的 儿 个 连通 分 支 . 连通 无 
向 图 C 不 包含 回路 的 时 候 ， 称 G 为 树 (tree) (图 A.3 (g)). 具有 
n 节点 的 连通 无 向 图 G 成 为 树 的 充分 必要 条 件 是 G 刚好 具有 
nn 一 1 条 边 . 对 无 向 图 GG = (V, E), 具有 与 G 同样 的 节点 集合 的 
子 图 G = (V, E) AR BO ES, X G 为 G 的 生成 树 (spanning 
tree) (图 A.3 (h)). 

以 下 考虑 有 向 图 的 树 ， 把 树 中 存在 有 被 称 为 根 (root) 的 一 
个 特别 节点 r+ 者 称 为 带 根 树 (rooted tree) (图 A.3 (i)). 带 根 树 里 
存在 有 从 任意 节点 "到 > 的 有 向 路 . 这 个 从 v BIR r 的 路 是 唯 
一 确定 的 ， 称 其 中 在 节点 = 后 出 现 的 节点 为 的 父亲 (parent), 
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节点 也 为 品 的 父亲 的 时 候 称 为 w k RF (child). 另外 , 把 节 
点 v 到 根 > 的 路 土 存在 的 任意 的 节点 记 为 4, 称 4 为 v 的 祖先 
(ancestor), v 为 的 子孙 (descendant). 另外 ， 把 除 自己 以 外 无 
其 它 子 孙 的 节点 称 为 叶 (leaf). 对 带 根本 的 各 节点 v E 
根 的 路 的 长 度 (所 包含 的 边 数 ) 为 v 的 深度 (depth). 所 有 成 为 
时 的 w 的 子孙 到 ，* 的 路 之 中 , 称 其 最 长 者 的 长 度 称 为 "的 高度 
(height), 根 自身 的 高 度 称 为 树 的 高 度 (tree height). 以 带 根 树 的 
任 一 个 节点 为 根 ， 称 它 的 所 有 子孙 形成 的 树 为 子 树 (subtree). 


A.4 计算 复杂 性 


一 个 问题 (problem) 通常 由 无 限 个 问题 实例 (problem in- 
stances) 组 成 ， 比 如 ， 旅 行商 问题 是 通过 具体 给 定 节点 数 和 各 
节点 对 间 的 距离 后 确定 的 无 数 问题 实例 的 集合 . 所 谓 设计 解 某 
个 问题 的 算法 ， 是 在 给 定 属于 该 问题 的 任何 实例 的 情况 下 ， 都 
能 正确 找到 它 的 解 . 

算法 一 般 由 加 碱 乘 除 和 大 小 比较 等 基本 步 又 组 成 ， 称 找 出 
某 个 问题 的 解 所 需要 的 这 些 基本 步骤 的 执行 次 数 称 为 时 间 复 杂 
性 (time complexity) (也 称 时 间 量 ). 相应 地 ， 称 为 了 保持 计算 中 
闻 结 果 所 必要 的 存储 空间 大 小 为 空间 复杂 性 (space complexity)- 
另外 ,把 它们 综合 起 来 称 为 计算 复杂 性 (complexity), 也 称 计算 
zB. 

另外 ， 处 理 数 字 的 算法 之 基本 步 又 严格 说 来 有 如 下 两 种 取 
Ho 其 一 是 把 加 减 冬 除 等 运算 都 各 自 算 作 一 步 ， 其 二 是 把 这 
些 运 算 分 解 成 二 进 制 数 的 位 数 (bit) 运算 形式 之 后 对 位 数 运算 
加 以 计数 . 称 前 者 为 单位 成 本 (unit cost) 法 , 后 者 为 对 数 成 本 
(logarithmic cost) 法 . 后 者 的 取 名 是 因为 自然 数 z 化 为 二 进 制 时 
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其 位 数 大 致 为 legsz. 采用 该 方法 时 需要 的 成 本 因 所 处 理 的 数 
之 大 小 不 同 而 不 一 样 . 例如 ,在 位 数 的 两 个 数 求 和 的 情况 
F, 采用 单位 成 本 法 时 其 计算 量 是 1, 而 采用 对 数 成 本 法 时 ,其 
计算 量 被 估 为 cin + ca (这 里 ， cr 和 cz 为 特定 的 常数 )- 

当 所 有 的 数 通 过 一 定 的 位 数 (比如 计算 机 中 一 个 词 的 位 数 } 
能 够 以 足够 的 精度 表示 出 来 时 ， 采 用 单位 成 本 法 比较 合适 ， 当 
不 同 的 数字 需要 不 同位 数 才能 无 误差 地 表示 出 来 时 采用 对 数 
成 本 法 比较 合适 . 在 大 多 数 情 况 下 采用 单位 成 本 法 对 本 书 的 算 
法 进行 评估 比较 现实 {但 是 ， 对 第 5 章 韵 椭 球 法 和 内 点 法 评 售 
时 采用 了 对 数 成 本 法 )- 

算法 的 计算 量 因 问题 实例 不 同 而 不 同 ， 一 般 说 来 ， 如 果 是 
大 规模 问题 实例 则 计算 量 也 相应 地 大 起 来 . 于 是 ， 对 算法 进行 
评价 时 ， 有 必要 调查 随 着 问题 实例 的 规模 的 增 大 计算 量 如 何 变 
化 ， 作 为 表达 问题 实例 规模 的 指标 ,通常 采用 输入 它 的 数据 长 
{ 位 数 ) 比如 ， 旅 行商 问题 里 ， 如 果 节 点 数 为 n, 节点 对 之 间距 
离 的 最 大 值 为 C, 则 输入 数据 长 可 以 用 O(n? log C) 来 评价 (对 数 
成 本 法 )?. 这 里 ， O(f(N)) 读 作 FUN) 阶 , T(N) = O(f(N)) 表示 
存在 某 个 正常 数 < 和 No, 5 N No 时 成 立 T(N) < cf(N). 比 
如 ，0.5Na2,100NMT5N2,50- 104N +10-3N2 等 全 可 写 为 O(N?). 
特别 是 ， 当 AN) 是 不 依赖 于 ON 的 常数 时 ， 把 ON) 写成 
o(1). 

当 给 定 规模 为 O(N) 的 问题 实例 时 ， 想 把 针对 该 问题 的 算 
法 计算 量 的 阶 用 入 的 函数 来 表示 . 但 是 ， 规模 为 O(N) 的 问题 
实例 一 般 存 在 有 无 数 个 ， 故 有 必要 用 某 种 客观 的 基准 来 进行 整 
体 评价 . 为 此 ， 一般 采用 如 于 两 个 基准 之 一 : 

最 十 计算 量 (worst case complexity): 基于 规模 为 N 的 所 有 


1) 设 节点 对 之 间 的 距离 全 为 整数 . 
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问题 实例 中 需要 最 大 计算 重 者 来 确定 - 

平均 计算 量 (average complexity): 基于 规模 为 N 的 问题 实 
例 各 自发 生 的 概率 来 确定 . 

有 时 有 一 部 分 问题 实例 需要 异常 多 的 计算 量 ,前 者 会 因此 
给 出 过 于 悲观 的 评价 ， 然而 .与 后 者 比 起 来 ， 前 者 在 数学 处 理 
上 要 容易 些 ， 因 而 被 经 常 采用 . 


在 评价 这 些 算法 效率 的 时 候 ， 经 常 考虑 的 问题 是 时 间 量 
O(F(N)) 是 不 是 多 项 式 阶 (polynomial order). 所 谓 多 项 式 阶 是 
说 可 以 用 某 个 常数 上 写 为 O(N*), 但 是 也 有 像 O(N? log N)( 
O(N?)) 这 样 含有 log N 的 情况 . 与 此 相反 。 ES EA EUER 
有 ONEN), O~), O(NT) 等 等 . 

称 时 间 量 是 多 项 式 阶 的 算法 为 多 项 式 (时 间 ) 算法 (polyno- 
mial time algorithm). 针对 一 个 问题 一 般 可 以 认为 有 多 个 算法 ， 
当知 道 至 少 存在 有 一 个 多 项 式 时 间 算 法 时 ， 称 该 问题 属于 了 类. 
实用 上 可 以 认为 属于 P 类 的 河 题 是 可 解 的 问题 . 本 书 所 讨论 的 
问题 中 , 线性 规划 问题 ，2 次 规划 问题 , 最 大 流 问 题 ， 最 小 费用 
TRECE T POE. 与 此 相反 ， 有 很 多 像 旅 行商 问题 那样 不 知 
道 存 在 有 多 项 式 时 间 算 法 的 问题 . NP 困难 性 (NP-hardness) 
的 概念 被 认为 是 给 出 不 存在 多 项 式 时 间 算 法 的 理论 根据 ， uin 
旅行 商 问 题 也 是 NP 困难 的 - 
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译 者 后 记 


一 衣 带 水 的 邻 国 . 中 国 和 日 本 的 文化 交流 历史 源远流长 . 
中 国运 筹 学 界 的 元 老 许 国志 先生 和 日 本 运筹 学 界 的 元 老 三 根 
入 先生 在 长 年 的 学 术 交 流 中 结 下 了 深厚 的 友谊 ,为 两 国运 筹 学 
界 的 学 术 发 展 作 出 了 非常 重要 的 贡献 . 

本 书 的 两 位 作者 均 是 三 根 久 先生 的 得 意 门生 ， 现 执教 于 日 
本 一 流 大 学 一 京都 大 学 ， 茨 木 俊 秀 教 授 在 离散 型 优化 特别 是 
组 合 优化 算法 方面 福 岛 雅 夫 教授 在 连续 型 优化 特别 是 非 线 性 
规划 方面 造 诺 颇 深 ， 是 世界 知名 的 一 流 学 者 . 除 日 本 国 LES 
木 教 授 兼 任 着 美国 University of Illinois, Rutgers University, 加 拿 
X Simon Fraser University 和 University of Waterloo 等 大 学 的 客 
座 教授 ， 福 岛 教授 兼任 着 加 拿 大 University of Waterloo, 澳 大 利 
亚 University of New South Wales, 比利时 Faclutés Universitaires 
ND de la Paix 等 大 学 的 客座 教授 . 

有 幸 获 得 在 他 们 手下 学 习 的 机 会 , 我 非常 钦 伺 他 们 学 识 济 
博 并 深 深 受 益 于 此 . 考虑 到 由 于 日 语 的 障碍 ,很 多 中 国 的 运筹 
学 界 的 研究 者 难于 了 解 邻 国 日 本 的 发 展 状况 , 我 一 直 想 借 当 学 
生 的 机 会 把 他 们 的 研究 成 果 介 绍 给 国内 同行 . 这 个 想法 得 到 了 
来 日 本 访问 的 中 科 院 应 用 数学 研究 所 所 长 章 祥 苏 教授 ， 上 曲阜 
师范 大 学 的 王 长 钰 教 援 , 山东 师范 大 学 的 赵 庆 祯 教授 的 大 力 支 
持 . 因 离 开 中 国 多 年 , 在 翻译 术语 时 碰 到 了 很 大 的 困难 . 为 此 ， 
赵 庆 被 教授 和 章 祥 苏 教 授 主 动 承担 起 繁杂 的 校正 工作 , 改正 了 
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初稿 中 的 不 少 错误 . (当然 ， 遗留 的 错误 当 由 译 者 本 人 负责 .》 
初稿 完成 后 ， 章 祥 蒜 教授 又 帮助 联系 世界 图 书 出 版 公司 ， 该 出 
版 公司 的 王 炜 女士 也 积极 与 日 本 共立 出 版 社 商 谈 版 权 事宜 . 为 
加 快 出 版 速度 , 章 祥 苏 教授 的 商 徒 ， 韦 民 和 王磊 两 位 同学 奉献 
出 宝贵 的 时 间 帮 助 我 利用 计算 机 排版 . 多 亏 他 们 的 努力 ， 该 书 
中 文 版 才 得 以 问世 . 

两 位 教授 著作 甚 丰 . 我 选 译本 书 是 因为 这 是 他 们 的 最 新 著 
E. 本 书 在 京都 大 学 作为 研究 生 教材 使 用 ， 受 到 好 评 、 目前 正 
准备 再 版 . 

谨 以 此 译 稿 作 为 宝贵 的 京都 大 学 留学 生活 纪念 


曾 E: 
1997 年 2 月 于 香川 大 学 
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